FALLAS ANALIZADAS CON OJO CLINICO - SERVER CAIDO

Si la avería en cualquier PC de escritorio resulta problemática, para el usuario promedio, imagínese lo que puede acarrear la falla total en un servidor. En la auopsia de este mes, vamos a tratar el caso de la dramática caída de un equipo de estas características, y sus consecuencias.

INTRODUCCION

Si decimos que las computadoras cumplen un papel cada vez más comprometido con nuestra vida cotidiana, nadie se va a sorprender, porque eso es algo ya asumido por la mayoría de los usuarios de PC. Pero no todos los equipos cargan con la misma responsabilidad dentro de este mundo informatizado. Una PC de escritorio responde sólo a uno o, a lo sumo, a un grupo reducido de usuarios, mientras que los servidores deben manejar los datos de varias decenas, cientos o miles de clientes. Pero adentrémonos más en el servidor como equipo; pasemos a ver sus componentes, sus partes más ínfimas.

 
ANALISIS PRELIMINAR
¿Quién pensaría que en el funcionamiento de una resistencia, que apenas cuesta algunos centavos, se deposita la responsabilidad de que miles de usuarios tengan acceso a su e-mail a tiempo? Por supuesto que servicios a gran escala, como MSN, no se van a dar el lujo de dejar todo parado hasta tanto se cambie una resistencia. En esos casos, directamente se cambia la placa completa, mientras el problema específico se resuelve con más tiempo. Pero no todos somos MSN y, hoy por hoy, existen muchos servicios “menores” en los que, quizá, sí todo dependa de un solo servidor, que hay que reparar indefectiblemente ante una avería. Foros, sitios, servicios de mail empresariales, hosting y muchos otros a veces dependen de ese pequeño componente, y de la rapidez del técnico de turno para encontrarlo y repararlo.

Este es el caso que planteamos en esta ocasión: un conocido foro dedicado a temas generales de un momento a otro “desaparece”, y deja a sus usuarios incomunicados.

 
HISTORIA CLINICA
Aunque parezca tonto, un foro es un canal de comunicaciones muy importante en la actualidad. En muchos casos, es el único medio de contacto que tienen algunos usuarios entre sí, y su ausencia puede significar una pérdida de tiempo considerable en la resolución de algún problema. Varias empresas o universidades usan foros privados para interconectar a sus participantes, y no son pocos los casos en los que las actividades son planteadas y coordinadas en base a lo que en ellos se postea. Imagínense que si un espacio de estas características se cae de un momento a otro, todos aquellos que no copiaron la información y confiaron en que todo “estaba ahí guardado” quedarán a la deriva hasta tanto no puedan volver a acceder.

Eran las 21 horas de un miércoles bastante rutinario en el laboratorio de análisis de hardware de MP. Cuando estábamos dispuestos a apagar todo e irnos, sonó el teléfono, y una voz temblorosa nos hizo predecir que ésa iba a ser una larga noche. El servidor del foro de una importante universidad se acababa de desconectar, justo en la semana en la que se tenían que coordinar los trabajos finales para la mayoría de las carreras. Miles de alumnos acostumbrados a entrar en ese sitio a diario verían imposibilitadas sus tareas, ya que la URL devolvía tan sólo un “No se puede mostrar la página”.

Luego de comprobar, en forma remota, que el equipo no respondía a ninguna de las demandas, decidimos mandar a retirar el servidor del rack en donde estaba instalado. Una vez en el laboratorio, pudimos corroborar que ni siquiera encendía, lo que hacía suponer que la falla se debía, estrictamente, a un problema de hardware.

 
PRIMEROS PASOS
Tal como lo indica la rutina, siempre que un equipo no enciende, hay que empezar por analizar el elemento encargado de brindar la corriente necesaria, o sea, la fuente de alimentación.

Bastaron un par de mediciones al azar para darnos cuenta de que la fuente no estaba entregando corriente en ninguna de sus salidas.

Procedimos entonces a desarmarla y a revisar su interior. A primera vista encontramos una serie de componentes dañados en la etapa secundaria. Varias resistencias y diodos mostraban claros signos de haber sufrido un exceso de calor, y había abundante hollín esparcido a su alrededor.

Aparentemente, el cortocircuito de alguno de ellos había provocado una sobretensión importante en la zona. En casi todos estos casos, se piensa en una falla interna de la unidad, ya que la alimentación proveniente del exterior se encuentra protegida y filtrada por equipos UPS de gran capacidad. Sin perder demasiado tiempo, procedimos al reemplazo de la fuente completa, dado que la urgencia no nos permitía detenernos a cambiar cada uno de sus componentes. Al reconectar todo otra vez, el equipo volvió a encender, pero el BIOS marcaba ahora una falla en la alimentación de los microprocesadores. Habíamos avanzado un paso, pero todavía quedaba mucho por delante.

 
ANALISIS DEL MOTHERBOARD
El motherboard era un Intel LG440GX+, con dos procesadores Pentium III de formato Slot 1, 4 GB de memoria RAM, cuatro discos SCSI conectados a una controladora dual-channel incorporada y una controladora de red Intel PRO/100+ integrada.

Se trataba de un equipo que, si bien hoy en día puede considerarse un poco desactualizado, tiene excelentes prestaciones para las demandas de un foro.

Lo primero que verificamos fue que la fuente nueva estuviera entregando efectivamente todos sus valores correspondientes. No sería la primera vez que una fuente de alimentación fallara en su primer arranque, aunque éste no era el caso: todas las tensiones estaban presentes y entrando correctamente al motherboard. Procedimos a retirar la placa del gabinete para analizarla con más detenimiento. Fue entonces cuando nos encontramos con una serie de pistas cortadas en su cara inferior, que mostraban claros signos de un corte por exceso de tensión. Esto se pone de manifiesto por las marcas negras que quedan en la zona del corte. Se procedió entonces a la reconstrucción de las pistas, utilizando finos alambres de cobre aislados con un spaghetti plástico. Una vez reestablecidas las uniones, se efectuó un control de rutina de todos los componentes que podrían haber sido afectados por la avería. Este es un procedimiento muy importante que debe realizarse antes de encender la unidad, ya que si existió un golpe de tensión capaz de cortar las pistas del circuito, es más que probable que algún sector haya sufrido también las consecuencias.

El riesgo más grande se presenta ante la posibilidad de que alguno de los elementos encargados de manejar la corriente esté todavía en cortocircuito, y entonces genere otra fuga importante, quizá, con males mayores. El BIOS había delatado una falla en la alimentación del microprocesador, por lo que nos dirigimos en forma inmediata al sector encargado de regular la tensión de entrada. Este se ubica próximo a los dos zócalos que contienen los cartuchos con los procesadores. Allí se destacan una serie de bobinas, capacitares y transistores que forman una minifuente conmutada, dedicada, casi exclusivamente, a proveer de tensión a cada uno de los cartuchos.

La mayor parte de este sector estaba sana, salvo los dos transistores reguladores, que mostraban un cortocircuito entre dos de sus patas.

Ahora sí, teníamos a la segunda víctima de esta fuga repentina de tensión. Afortunadamente, el laboratorio contaba con repuestos para estos reguladores, si no, hubiéramos tenido que esperar varios días hasta conseguir los componentes adecuados.

En estos casos, se trata de proceder con un plan de emergencia que permita reemplazar el servidor completo momentáneamente. Una vez reemplazados ambos reguladores, se hizo otra revisión de rutina a todas las partes involucradas, y no se detectó ninguna anormalidad.

Entonces sí, con más tranquilidad, procedimos a encender el equipo y comprobamos, para nuestra tranquilidad y la de la gente de la universidad, que todo volvía a operar con normalidad. Para entonces, el reloj indicaba las 4 a.m. Sin dudas, una situación por demás estresante, pero con buenos resultados para los alumnos que, al otro día, ingresaron en el foro para realizar sus actividades diarias, sin siquiera enterarse de que una pequeña resistencia casi los había dejado sin el contacto tan necesario.

 
CAUSAS
Como ya mencionamos en el transcurso de esta autopsia, es difícil encontrar factores externos que puedan causar esta falla. Los racks dedicados a contener servidores son cuidados al extremo en lo que a la alimentación se refiere: potentes UPS y filtros se encargan de asegurar una alimentación permanente sin sobresaltos. El único enemigo mortal e imparable es la descarga atmosférica o rayo, pero éste no había sido el caso. Entonces, no quedaba más que suponer una fatiga propia de los componentes de la fuente.

Esto es algo muy común en cualquier equipo que se somete a un trabajo constante, más aún, teniendo en cuenta la cantidad de elementos que se arman con partes de bajísimo costo de producción. En un caso que se podría considerar “normal”, un elemento como una resistencia o un transistor debería abrirse cortando el paso de la corriente. El problema surge cuando aparece ese pequeño porcentaje de casos en los que el elemento se pone en cortocircuito.

Entonces, la corriente fluye sin control y provoca picos de tensión que son capaces de generar cualquier tipo de fallas, hasta tanto no se corte el suministro de energía. En esta situación particular, el corto se produjo en un transistor de la etapa secundaria, comprometido con la regulación de corriente de salida. Esto provocó la avería general de varias de las partes involucradas a este sector; incluso, se extendió al propio motherboard. Si tenemos que definir un responsable, no tenemos otra alternativa más que volcarnos a una simple cuestión fortuita. Si la falla se hubiera generado en la etapa primaria, difícilmente habría existido algún traslado hacia la salida de la fuente, ya que las protecciones actúan antes que cualquier exceso supere este sector. La etapa secundaria también cuenta con protecciones, pero hay factores que escapan a cualquier previsión y, si bien llegado un punto, el suministro de energía se corta, para entonces es imposible determinar el daño de las partes comprometidas.

Por fortuna, en este caso todo se detuvo en los transistores reguladores.

En otras oportunidades, nos encontramos con situaciones en las que la cadena siguió más allá, y llegó a afectar, incluso, a los propios microprocesadores o unidades de disco. Para concluir, la próxima vez que vean una resistencia, transistor, capacitor o cualquier elemento encargado del manejo de corriente, trátenlo con más respeto; quizás de ellos dependa su trabajo de mañana.

 
De la Redacción de USERS de MP Ediciones
FIGURA 1
 
FIGURA 2
 
FIGURA 3
 
FIGURA 4
 
FIGURA 5
 
PROMOCIONES
 
 
PROMOCIONES
 
 
PROMOCIONES
 
 
PROMOCIONES
 
 
PROMOCIONES