FALLAS
ANALIZADAS CON OJO CLINICO - SERVER CAIDO
|
|
Si la avería en cualquier
PC de escritorio resulta problemática, para
el usuario promedio, imagínese lo que puede
acarrear la falla total en un servidor. En la auopsia
de este mes, vamos a tratar el caso de la dramática
caída de un equipo de estas características,
y sus consecuencias. |
|
|
Si decimos que
las computadoras cumplen un papel cada vez más
comprometido con nuestra vida cotidiana, nadie se
va a sorprender, porque eso es algo ya asumido por
la mayoría de los usuarios de PC. Pero no
todos los equipos cargan con la misma responsabilidad
dentro de este mundo informatizado. Una PC de escritorio
responde sólo a uno o, a lo sumo, a un grupo
reducido de usuarios, mientras que los servidores
deben manejar los datos de varias decenas, cientos
o miles de clientes. Pero adentrémonos más
en el servidor como equipo; pasemos a ver sus componentes,
sus partes más ínfimas.
|
|
|
¿Quién
pensaría que en el funcionamiento de una
resistencia, que apenas cuesta algunos centavos,
se deposita la responsabilidad de que miles de usuarios
tengan acceso a su e-mail a tiempo? Por supuesto
que servicios a gran escala, como MSN, no se van
a dar el lujo de dejar todo parado hasta tanto se
cambie una resistencia. En esos casos, directamente
se cambia la placa completa, mientras el problema
específico se resuelve con más tiempo.
Pero no todos somos MSN y, hoy por hoy, existen
muchos servicios “menores” en los que,
quizá, sí todo dependa de un solo
servidor, que hay que reparar indefectiblemente
ante una avería. Foros, sitios, servicios
de mail empresariales, hosting y muchos otros a
veces dependen de ese pequeño componente,
y de la rapidez del técnico de turno para
encontrarlo y repararlo.
Este es el caso que planteamos
en esta ocasión: un conocido foro dedicado
a temas generales de un momento a otro “desaparece”,
y deja a sus usuarios incomunicados. |
|
|
Aunque parezca
tonto, un foro es un canal de comunicaciones muy
importante en la actualidad. En muchos casos, es
el único medio de contacto que tienen algunos
usuarios entre sí, y su ausencia puede significar
una pérdida de tiempo considerable en la
resolución de algún problema. Varias
empresas o universidades usan foros privados para
interconectar a sus participantes, y no son pocos
los casos en los que las actividades son planteadas
y coordinadas en base a lo que en ellos se postea.
Imagínense que si un espacio de estas características
se cae de un momento a otro, todos aquellos que
no copiaron la información y confiaron en
que todo “estaba ahí guardado”
quedarán a la deriva hasta tanto no puedan
volver a acceder.
Eran las 21 horas de un miércoles
bastante rutinario en el laboratorio de análisis
de hardware de MP. Cuando estábamos dispuestos
a apagar todo e irnos, sonó el teléfono,
y una voz temblorosa nos hizo predecir que ésa
iba a ser una larga noche. El servidor del foro
de una importante universidad se acababa de desconectar,
justo en la semana en la que se tenían que
coordinar los trabajos finales para la mayoría
de las carreras. Miles de alumnos acostumbrados
a entrar en ese sitio a diario verían imposibilitadas
sus tareas, ya que la URL devolvía tan sólo
un “No se puede mostrar la página”.
Luego de comprobar, en forma remota,
que el equipo no respondía a ninguna de las
demandas, decidimos mandar a retirar el servidor
del rack en donde estaba instalado. Una vez en el
laboratorio, pudimos corroborar que ni siquiera
encendía, lo que hacía suponer que
la falla se debía, estrictamente, a un problema
de hardware. |
|
|
Tal como lo indica
la rutina, siempre que un equipo no enciende, hay
que empezar por analizar el elemento encargado de
brindar la corriente necesaria, o sea, la fuente
de alimentación.
Bastaron un par de mediciones al
azar para darnos cuenta de que la fuente no estaba
entregando corriente en ninguna de sus salidas.
Procedimos entonces a desarmarla
y a revisar su interior. A primera vista encontramos
una serie de componentes dañados en la etapa
secundaria. Varias resistencias y diodos mostraban
claros signos de haber sufrido un exceso de calor,
y había abundante hollín esparcido
a su alrededor.
Aparentemente, el cortocircuito
de alguno de ellos había provocado una sobretensión
importante en la zona. En casi todos estos casos,
se piensa en una falla interna de la unidad, ya
que la alimentación proveniente del exterior
se encuentra protegida y filtrada por equipos UPS
de gran capacidad. Sin perder demasiado tiempo,
procedimos al reemplazo de la fuente completa, dado
que la urgencia no nos permitía detenernos
a cambiar cada uno de sus componentes. Al reconectar
todo otra vez, el equipo volvió a encender,
pero el BIOS marcaba ahora una falla en la alimentación
de los microprocesadores. Habíamos avanzado
un paso, pero todavía quedaba mucho por delante. |
|
|
El motherboard
era un Intel LG440GX+, con dos procesadores Pentium
III de formato Slot 1, 4 GB de memoria RAM, cuatro
discos SCSI conectados a una controladora dual-channel
incorporada y una controladora de red Intel PRO/100+
integrada.
Se trataba de un equipo que, si
bien hoy en día puede considerarse un poco
desactualizado, tiene excelentes prestaciones para
las demandas de un foro.
Lo primero que verificamos fue
que la fuente nueva estuviera entregando efectivamente
todos sus valores correspondientes. No sería
la primera vez que una fuente de alimentación
fallara en su primer arranque, aunque éste
no era el caso: todas las tensiones estaban presentes
y entrando correctamente al motherboard. Procedimos
a retirar la placa del gabinete para analizarla
con más detenimiento. Fue entonces cuando
nos encontramos con una serie de pistas cortadas
en su cara inferior, que mostraban claros signos
de un corte por exceso de tensión. Esto se
pone de manifiesto por las marcas negras que quedan
en la zona del corte. Se procedió entonces
a la reconstrucción de las pistas, utilizando
finos alambres de cobre aislados con un spaghetti
plástico. Una vez reestablecidas las uniones,
se efectuó un control de rutina de todos
los componentes que podrían haber sido afectados
por la avería. Este es un procedimiento muy
importante que debe realizarse antes de encender
la unidad, ya que si existió un golpe de
tensión capaz de cortar las pistas del circuito,
es más que probable que algún sector
haya sufrido también las consecuencias.
El riesgo más grande se
presenta ante la posibilidad de que alguno de los
elementos encargados de manejar la corriente esté
todavía en cortocircuito, y entonces genere
otra fuga importante, quizá, con males mayores.
El BIOS había delatado una falla en la alimentación
del microprocesador, por lo que nos dirigimos en
forma inmediata al sector encargado de regular la
tensión de entrada. Este se ubica próximo
a los dos zócalos que contienen los cartuchos
con los procesadores. Allí se destacan una
serie de bobinas, capacitares y transistores que
forman una minifuente conmutada, dedicada, casi
exclusivamente, a proveer de tensión a cada
uno de los cartuchos.
La mayor parte de este sector estaba
sana, salvo los dos transistores reguladores, que
mostraban un cortocircuito entre dos de sus patas.
Ahora sí, teníamos
a la segunda víctima de esta fuga repentina
de tensión. Afortunadamente, el laboratorio
contaba con repuestos para estos reguladores, si
no, hubiéramos tenido que esperar varios
días hasta conseguir los componentes adecuados.
En estos casos, se trata de proceder
con un plan de emergencia que permita reemplazar
el servidor completo momentáneamente. Una
vez reemplazados ambos reguladores, se hizo otra
revisión de rutina a todas las partes involucradas,
y no se detectó ninguna anormalidad.
Entonces sí, con más
tranquilidad, procedimos a encender el equipo y
comprobamos, para nuestra tranquilidad y la de la
gente de la universidad, que todo volvía
a operar con normalidad. Para entonces, el reloj
indicaba las 4 a.m. Sin dudas, una situación
por demás estresante, pero con buenos resultados
para los alumnos que, al otro día, ingresaron
en el foro para realizar sus actividades diarias,
sin siquiera enterarse de que una pequeña
resistencia casi los había dejado sin el
contacto tan necesario. |
|
|
Como ya mencionamos
en el transcurso de esta autopsia, es difícil
encontrar factores externos que puedan causar esta
falla. Los racks dedicados a contener servidores
son cuidados al extremo en lo que a la alimentación
se refiere: potentes UPS y filtros se encargan de
asegurar una alimentación permanente sin
sobresaltos. El único enemigo mortal e imparable
es la descarga atmosférica o rayo, pero éste
no había sido el caso. Entonces, no quedaba
más que suponer una fatiga propia de los
componentes de la fuente.
Esto es algo muy común en
cualquier equipo que se somete a un trabajo constante,
más aún, teniendo en cuenta la cantidad
de elementos que se arman con partes de bajísimo
costo de producción. En un caso que se podría
considerar “normal”, un elemento como
una resistencia o un transistor debería abrirse
cortando el paso de la corriente. El problema surge
cuando aparece ese pequeño porcentaje de
casos en los que el elemento se pone en cortocircuito.
Entonces, la corriente fluye sin
control y provoca picos de tensión que son
capaces de generar cualquier tipo de fallas, hasta
tanto no se corte el suministro de energía.
En esta situación particular, el corto se
produjo en un transistor de la etapa secundaria,
comprometido con la regulación de corriente
de salida. Esto provocó la avería
general de varias de las partes involucradas a este
sector; incluso, se extendió al propio motherboard.
Si tenemos que definir un responsable, no tenemos
otra alternativa más que volcarnos a una
simple cuestión fortuita. Si la falla se
hubiera generado en la etapa primaria, difícilmente
habría existido algún traslado hacia
la salida de la fuente, ya que las protecciones
actúan antes que cualquier exceso supere
este sector. La etapa secundaria también
cuenta con protecciones, pero hay factores que escapan
a cualquier previsión y, si bien llegado
un punto, el suministro de energía se corta,
para entonces es imposible determinar el daño
de las partes comprometidas.
Por fortuna, en este caso todo
se detuvo en los transistores reguladores.
En otras oportunidades, nos encontramos
con situaciones en las que la cadena siguió
más allá, y llegó a afectar,
incluso, a los propios microprocesadores o unidades
de disco. Para concluir, la próxima vez que
vean una resistencia, transistor, capacitor o cualquier
elemento encargado del manejo de corriente, trátenlo
con más respeto; quizás de ellos dependa
su trabajo de mañana. |
|
De
la Redacción de USERS de MP Ediciones |
|
|
|
|