-
34
i decimos que las computadorascumplen un papel cada vez
mscomprometido con nuestra vida
cotidiana, nadie se va a sorprender, por-que eso es algo ya
asumido por la mayo-ra de los usuarios de PC. Pero no todoslos
equipos cargan con la misma respon-sabilidad dentro de este mundo
informa-tizado. Una PC de escritorio respondeslo a uno o, a lo
sumo, a un gruporeducido de usuarios, mientras que losservidores
deben manejar los datos devarias decenas, cientos o miles de
clien-tes. Pero adentrmonos ms en el servi-dor como equipo; pasemos
a ver suscomponentes, sus partes ms nfimas.
ANALISIS PRELIMINARQuin pensara que en el funcionamien-to de una
resistencia, que apenas cuestaalgunos centavos, se deposita la
respon-sabilidad de que miles de usuarios ten-gan acceso a su
e-mail a tiempo? Porsupuesto que servicios a gran escala,como MSN,
no se van a dar el lujo dedejar todo parado hasta tanto se
cambieuna resistencia. En esos casos, directa-mente se cambia la
placa completa,mientras el problema especfico seresuelve con ms
tiempo. Pero no todos somos MSN y, hoy porhoy, existen muchos
servicios menoresen los que, quiz, s todo dependa de unsolo
servidor, que hay que reparar inde-fectiblemente ante una avera.
Foros,sitios, servicios de mail empresariales,hosting y muchos
otros a veces depen-den de ese pequeo componente, y de larapidez
del tcnico de turno para encon-trarlo y repararlo.Este es el caso
que planteamos en estaocasin: un conocido foro dedicado atemas
generales de un momento a otrodesaparece, y deja a sus usuarios
incomunicados.
HISTORIA CLINICAAunque parezca tonto, un foro es uncanal de
comunicaciones muy importanteen la actualidad. En muchos casos, es
elnico medio de contacto que tienen algu-nos usuarios entre s, y su
ausenciapuede significar una prdida de tiempoconsiderable en la
resolucin de algnproblema. Varias empresas y universida-des usan
foros privados para interconec-tar a sus participantes, y no son
pocos
POWERUSR
S
los casos en los que las actividadesson planteadas y coordinadas
enbase a lo que en ellos se postea.Imagnense que si un espacio
deestas caractersticas se cae de unmomento a otro, todos aquellos
queno copiaron la informacin y con-fiaron en que todo estaba ah
guar-dado quedarn a la deriva hastatanto no puedan volver a
acceder. Eran las 21 horas de un mircolesbastante rutinario en el
laboratoriode anlisis de hardware de MP.Cuando estbamos dispuestos
a apa-gar todo e irnos, son el telfono, yuna voz temblorosa nos
hizo prede-cir que sa iba a ser una larga noche.El servidor del
foro de una importan-te universidad se acababa de desco-nectar,
justo en la semana en la quese tenan que coordinar los
trabajosfinales para la mayora de las carre-ras. Miles de alumnos
acostumbradosa entrar en ese sitio a diario veranimposibilitadas
sus tareas, ya que laURL devolva tan slo un No sepuede mostrar la
pgina. Luego de comprobar, en forma remo-ta, que el equipo no
responda a nin-guna de las demandas, decidimosmandar a retirar el
servidor del racken donde estaba instalado. Una vez
en el laboratorio, pudimos corroborarque ni siquiera encenda, lo
que hacasuponer que la falla se deba, estric-tamente, a un problema
de hardware.
PRIMEROS PASOSTal como lo indica la rutina, siem-pre que un
equipo no enciende, hayque empezar por analizar el elemen-to
encargado de brindar la corrientenecesaria, o sea, la fuente de
ali-mentacin. Bastaron un par demediciones al azar para
darnoscuenta de que la fuente no estabaentregando corriente en
ninguna desus salidas. Procedimos entonces adesarmarla y a revisar
su interior. Aprimera vista encontramos una seriede componentes
daados en laetapa secundaria. Varias resistenciasy diodos mostraban
claros signos dehaber sufrido un exceso de calor, yhaba abundante
holln esparcido asu alrededor. Aparentemente, el cor-tocircuito de
alguno de ellos habaprovocado una sobretensin impor-tante en la
zona. En casi todos estoscasos, se piensa en una falla internade la
unidad, ya que la alimentacinproveniente del exterior se encuen-tra
protegida y filtrada por equiposUPS de gran capacidad. Sin
perder
ESTA ES UNA PARTE DEL RACK DONDE SE ENCONTRABA EL
SERVIDORANALIZADO EN ESTA AUTOPSIA. EN ESTE TIPO DE EQUIPAMIENTO,
LASMEDIDAS DE SEGURIDAD CON RESPECTO A LA ALIMENTACION DEBEN SERMUY
RIGUROSAS.
+FALLAS ANALIZADASCON OJO CLINICO
LA AUTOPSIA DEL MES:SERVER CAIDO
32-34- Autopsias-P20.qxd 5/5/05 11:34 AM Page 34
-
POWERUSR 35
demasiado tiempo, procedimos al reemplazo de la fuentecompleta,
dado que la urgencia no nos permita detenernos acambiar cada uno de
sus componentes. Al reconectar todootra vez, el equipo volvi a
encender, pero el BIOSmarcaba ahora una falla en la alimentacin de
losmicroprocesadores. Habamos avanzado un paso, perotodava quedaba
mucho por delante.
ANALISIS DEL MOTHERBOARDEl motherboard era un Intel LG440GX+,
con dos procesadoresPentium III de formato Slot 1, 4 GB de memoria
RAM, cuatrodiscos SCSI conectados a una controladora dual-channel
incor-porada y una controladora de red Intel PRO/100+ integrada.
Setrataba de un equipo que, si bien hoy en da puede considerar-se
un poco desactualizado, tiene excelentes prestaciones paralas
demandas de un foro.Lo primero que verificamos fue que la fuente
nueva estuvieraentregando efectivamente todos sus valores
correspondientes.No sera la primera vez que una fuente de
alimentacin fallaraen su primer arranque, aunque ste no era el
caso: todas lastensiones estaban presentes y entrando correctamente
al motherboard. Procedimos a retirar la placa del gabinete
paraanalizarla con ms detenimiento. Fue entonces cuando
nosencontramos con una serie de pistas cortadas en su cara
infe-rior, que mostraban claros signos de un corte por exceso
detensin. Esto se pone de manifiesto por las marcas negras
quequedan en la zona del corte. Se procedi entonces a la
recons-truccin de las pistas, utilizando finos alambres de cobre
aisla-dos con un spaghetti plstico. Una vez reestablecidas las
unio-
ESTE ES EL MOTHERBOARD ANALIZADO, UN INTEL LG440GX+,CON SOPORTE
PARA DOS PROCESADORES PENTIUM III DEFORMATO SLOT 1.
SI LA AVERIA EN CUALQUIER PC DE ESCRITORIO RESULTAPROBLEMATICA
PARA EL USUARIO PROMEDIO, IMAGINENSELO QUE PUEDE ACARREAR LA FALLA
TOTAL EN UNSERVIDOR. EN LA AUTOPSIA DE ESTE MES, VAMOS ATRATAR EL
CASO DE LA DRAMATICA CAIDA DE UN EQUIPODE ESTAS CARACTERISTICAS, Y
SUS CONSECUENCIAS.
nes, se efectu un control derutina de todos los compo-nentes que
podran habersido afectados por la avera.Este es un procedimientomuy
importante que deberealizarse antes de encenderla unidad, ya que si
existiun golpe de tensin capaz decortar las pistas del circuito,es
ms que probable quealgn sector haya sufridotambin las
consecuencias. Elriesgo ms grande se presen-ta ante la posibilidad
de quealguno de los elementosencargados de manejar lacorriente est
todava en cor-tocircuito, y entonces genereotra fuga importante,
quiz,con males mayores. El BIOShaba delatado una falla enla
alimentacin del micropro-cesador, por lo que nos diri-gimos en
forma inmediata alsector encargado de regularla tensin de entrada.
Este seubica prximo a los doszcalos que contienen loscartuchos con
los procesado-res. All se destacan una seriede bobinas, capacitores
y tran-sistores que forman una mini-fuente conmutada, dedicada,casi
exclusivamente, a proveerde tensin a cada uno de loscartuchos. La
mayor parte deeste sector estaba sana, salvolos dos transistores
regulado-res, que mostraban un corto-circuito entre dos de sus
patas.Ahora s, tenamos a la segun-da vctima de esta fuga repen-tina
de tensin.
Afortunadamente, el labora-torio contaba con repuestospara estos
reguladores, si no,hubiramos tenido que espe-rar varios das hasta
conse-guir los componentes adecua-dos. En estos casos, se tratade
proceder con un plan deemergencia que permitareemplazar el servidor
com-pleto momentneamente. Unavez reemplazados ambosreguladores, se
hizo otra revi-sin de rutina a todas laspartes involucradas, y no
sedetect ninguna anormalidad.Entonces s, con ms tranqui-lidad,
procedimos a encenderel equipo y comprobamos,para nuestra
tranquilidad y lade la gente de la universidad,que todo volva a
operar connormalidad. Para entonces, elreloj indicaba las 4 a.m.
Sindudas, una situacin pordems estresante, pero conbuenos
resultados para losalumnos que, al otro da,ingresaron en el foro
pararealizar sus actividades dia-rias, sin siquiera enterarse deque
una pequea resistenciacasi los haba dejado sin elcontacto tan
necesario.
CAUSASComo ya mencionamos en eltranscurso de esta autopsia,es
difcil encontrar factoresexternos que puedan causaresta falla. Los
racks dedicadosa contener servidores son cui-dados al extremo en lo
que ala alimentacin se refiere:
LA PRESENCIA DE HOLLIN DEBAJO DE ESTASRESISTENCIAS EVIDENCIABA
UN FUERTEGOLPE DE TENSION EN ESE SECTOR.
32-34- Autopsias-P20.qxd 5/5/05 11:35 AM Page 35
-
36 POWERUSR
transistor debera abrirse ycortar el paso de la corriente.El
problema surge cuandoaparece ese pequeo porcen-taje de casos en los
que elelemento se pone en cortocir-cuito. Entonces, la
corrientefluye sin control y provocapicos de tensin que soncapaces
de generar cualquiertipo de fallas, hasta tanto nose corte el
suministro deenerga. En esta situacinparticular, el corto se
produjo
potentes UPS y filtros se encargan de ase-gurar una alimentacin
permanente sinsobresaltos. El nico enemigo mortal eimparable es la
descarga atmosfrica orayo, pero ste no haba sido el caso.Entonces,
no quedaba ms que suponer unafatiga propia de los componentes de
lafuente. Esto es algo muy comn en cual-quier equipo que se somete
a un trabajoconstante, ms an, teniendo en cuenta lacantidad de
elementos que se arman conpartes de bajsimo costo de produccin.
Enun caso que se podra considerar normal,un elemento como una
resistencia o un
en un transistor de la etapa secundaria,comprometido con la
regulacin decorriente de salida. Esto provoc la ave-ra general de
varias de las partes invo-lucradas a este sector; incluso, se
exten-di al propio motherboard. Si tenemosque definir un
responsable, no hay otraalternativa ms que volcarnos a unasimple
cuestin fortuita. Si la falla sehubiera generado en la etapa
primaria,difcilmente habra existido algn tras-lado hacia la salida
de la fuente, ya quelas protecciones actan antes que cual-quier
exceso supere este sector. La etapasecundaria tambin cuenta con
protec-ciones, pero hay factores que escapan acualquier previsin y,
si bien llegado unpunto, el suministro de energa se corta,para
entonces es imposible determinar eldao de las partes
comprometidas.Por fortuna, en este caso todo se detuvoen los
transistores reguladores. En otrasoportunidades, nos encontramos
consituaciones en las que la cadena siguims all, y lleg a afectar,
incluso, a lospropios microprocesadores o unidadesde disco. Para
concluir, la prxima vezque vean una resistencia,
transistor,capacitor o cualquier elemento encarga-do del manejo de
corriente, trtenlo conms respeto; quizs de ellos dependa sutrabajo
de maana.
EN CASOS EN LOS QUE LAS PISTAS DEL CIRCUITO SON DEMASIADO FINAS
Y ABULTADAS, DEBEMOS UTILIZAR HILOS AISLADOS EN SPAGHETTI, PARA
EVITAR EL CONTACTO CON OTROS SECTORES. UNA GOTA DE SILICONA
DERRETIDA ES UNA EXCELENTE AYUDA PARA FIJAR EL CONDUCTOR A LA
PLACA.
ESTE ES EL SECTOR ENCARGADO DE LAALIMENTACION DE LOS
PROCESADORES. EN ESTALINEA DE INTEL, SE ENCUENTRA JUSTO ENTREMEDIO
DE LOS ZOCALOS CORRESPONDIENTES A LOS MICROPROCESADORES.
COMPONENTES DE SUPERFICIE
Quienes posean alguna experiencia en elarmado de circuitos
electrnicos caseros,tendrn un concepto formado en relacin alaspecto
que suele identificar a la mayora delos componentes bsicos. Ahora
bien, porms pequeos que stos parezcan, para lasnecesidades de la
electrnica actual, nuncase es lo suficientemente pequeo. Es por
esoque, en muchos de los equipos modernos,encontramos lo que se
denomina compo-nente de superficie: resistencias,
diodos,capacitores y una gran variedad de dispositi-vos que son
comprimidos varias veces en sutamao y soldados sobre la superficie
misma
de la pista conductora, sin necesidad de per-foraciones en la
placa; de ah el porqu de sunombre. Las caractersticas generales
sonidnticas a las de los componentes estndar,la diferencia est al
momento de efectuarreemplazos. Este proceso puede ser un tantoms
complicado y demandar el uso deherramientas especficas para
manipulareste tipo de elementos. En algunos casos, de ser
estrictamentenecesario, es posible usar como recambio unrepuesto
estndar, siempre y cuando poda-mos adaptar sus conexiones y
respetemoslas caractersticas al detalle.
* EN UN CASO QUE SE PODRIA CONSIDERAR NORMAL, UN ELEMENTO COMO
UNARESISTENCIA O UN TRANSISTOR DEBERA ABRIRSE Y CORTAR LA
CORRIENTE. EL PROBLEMA SURGE CUANDO EL ELEMENTO SE PONE EN
CORTOCIRCUITO.32-34- Autopsias-P20.qxd 5/5/05 11:35 AM Page 36