¿Cómo maximizar el tiempo de actividad del servidor?

  
                  

Mantener el servidor en funcionamiento, o al menos prepararse para ir cuando sea necesario, es uno de los objetivos que todos los gerentes de centros de datos están más dispuestos a lograr.

Sin embargo, pocos administradores de centros de datos pueden decir honestamente que todo lo que hacen es maximizar el tiempo de actividad del sistema. Los expertos dicen que, de hecho, muchos gerentes pierden mucho tiempo y dinero en técnicas y prácticas que tienen poco o ningún impacto positivo en el tiempo de actividad.

Walter Beddoe, vicepresidente de operaciones de TI y soporte logístico de Six Telekurs, un proveedor de servicios de datos financieros de EE. UU., cree que maximizar el tiempo de actividad es tanto una ciencia como un arte administrativo. “Necesita reunir muchas cosas diferentes, incluidas personas que pueden hacer el trabajo, usar hardware tolerante a fallas, adoptar seguridad dinámica, buenas prácticas de mantenimiento y gestión de cambios, etc. Lo más importante es comprometerse a hacer todo lo mejor que pueda. Bien hecho. "

Alan Howard, director de TI de Princeton Radiology, una compañía de diagnóstico de imágenes médicas en Princeton, insta a sus subordinados a no perder tiempo y recursos en comportamientos y herramientas que no contribuyen directamente a mejorar el tiempo de actividad. Por ejemplo, el esfuerzo para llevar a cabo la agrupación en clústeres se "desperdicia" y no es tan completo como la configuración redundante con herramientas.

Los clusters que no se pueden automatizar (la sincronización debe hacerse manualmente) pueden causar más problemas, dijo Howard. "Un nodo maestro puede ser catastrófico si falla. Es mejor dejar que falle el nodo de espera que dejar que falle el nodo maestro."

Por ejemplo, su equipo hizo una El clúster de Windows Server, usado como una conmutación por error, causó que la aplicación se bloquee porque un cambio en el archivo de configuración de la aplicación no se pudo copiar al servidor de reserva a tiempo. "El esfuerzo para corregir una falla de la aplicación es a menudo más que el esfuerzo para corregir una falla del nodo del clúster". Después de

, su equipo ya no tiene un servidor de clúster tradicional. En su lugar, configuraron un "clúster de servidor de reserva único", y asignaron el clúster a un SAN de centro de almacenamiento Compellent de controlador doble, "por lo que pudimos migrar máquinas virtuales a demanda casi sin problemas.

Planificación cuidadosa

La mayoría de los administradores de centros de datos están de acuerdo en que la planificación cuidadosa de todo el trabajo relacionado con el servidor, desde la adquisición hasta la administración y el reemplazo, es un paso crítico para garantizar la confiabilidad del sistema. .

Raoul Gabiam, gerente de operaciones e ingeniería de TI de la Universidad de Washington, dice que la administración del ciclo de vida es una parte integral de la planificación del tiempo de actividad del servidor. "Saber cuándo, cómo reemplazar el hardware y actualizar el software es muy importante porque afecta el rendimiento del sistema, la continuidad y el tiempo de actividad general."

Por ejemplo, si debe hacerlo una vez Las actualizaciones de software, para luego comprender la necesidad de hardware y el estado del hardware existente, es fundamental. Puede que tenga que comprar hardware para satisfacer las necesidades de actualización de software para evitar más tiempo de inactividad, explicó Gabiam.

Gabiam también aboga firmemente por la estandarización y la coordinación como una forma de garantizar operaciones de servidor confiables. "Antes de que alguien instale algo o realice un cambio, debe realizar un proceso de administración de cambios".

La administración de cambios se trata de comprender "cómo se configura y cómo se cambia todo antes de implementar cambios" Haz una evaluación ", dijo Gabiam. "De esta manera, siempre se puede entender lo que no está permitido y lo que puede afectarse entre sí".

Dijo que obedeciendo a la disciplina de la gestión del cambio, es posible prever algún tipo de Qué sucede cuando configura el servidor o lo coloca en un nuevo entorno.

Online Resources es una empresa que brinda servicios comerciales a instituciones financieras. Su Director de tecnología, Paul Franko, cree que las actitudes laborales también pueden tener un gran impacto. Dijo que ha hecho un esfuerzo adicional para garantizar que el trabajo regular pero crítico relacionado con el servidor pueda tomarse en serio y abordarse de manera oportuna.

"Propusimos un mecanismo de verificación y equilibrio del sistema para garantizar que se puedan seguir nuestras diversas reglas", dijo. Según Franko, los gerentes deben verificar de manera rutinaria la administración de sus subordinados, y con la doble verificación de otros medios, pueden minimizar el error humano. "Es una persona que comete errores. Si no configura varios puntos de control, las cosas caerán en el lado equivocado".

Practicar el mantenimiento preventivo

Las medidas de mantenimiento preventivo de rutina pueden ser La forma más fácil y menos dolorosa de soportar un servidor confiable. "El tiempo de funcionamiento del sistema solo puede ser tan largo como el tiempo de funcionamiento del componente más débil de todo el sistema", dijo Beddoe. A la larga, las tareas básicas de actualizar el software del sistema, proporcionar energía condicional y garantizar un entorno de refrigeración adecuado permitirán que los servidores del centro de datos funcionen sin fallas sin romper el presupuesto. El equipo de la misión está movilizando a la gente para solucionar el problema.

Paul Franko, CTO de Recursos en línea, cree que la actitud de trabajo puede jugar un papel muy importante en la administración de servidores. Dijo que hizo un esfuerzo adicional para garantizar que el trabajo regular pero crítico relacionado con el servidor pueda tomarse en serio y abordarse de manera oportuna.

Franko dijo que para asegurarse de que todo el trabajo que se debe realizar se realice cuando sea necesario, se debe determinar qué tareas son trabajos de mantenimiento del servidor y organizarse en un calendario claro. "Algunas cosas deben realizarse de inmediato, como las actualizaciones de seguridad, mientras que otras tareas se realizan en lotes o a intervalos regulares". Este segundo tipo de tarea incluye actualizaciones a mejoras funcionales no críticas del software. .

Franko agregó que el mantenimiento del servidor debe manejarse de esta manera: el mantenimiento no debe llevar el tiempo de actividad del servidor. "No podemos permitir que el sistema funcione más lento por algún trabajo de mantenimiento. Tenemos que hacer esto de todos modos".

Si tiene que eliminar un servidor para el mantenimiento, el equipo de Franko Este mantenimiento se programará para la medianoche o los fines de semana, cuando la demanda del usuario sea baja. La única razón para eliminar un servidor de funciones durante el horario laboral normal es que debe instalar o realizar una actualización de software crítica, como un parche de seguridad de día cero.

Automatización de las tareas básicas de administración de servidores

En los últimos años, la administración de servidores se ha vuelto más compleja, principalmente debido a la aparición de la virtualización y las tecnologías relacionadas; Para aumentar la eficiencia y el uso del servidor, deben diseñarse varias mejores prácticas.

La virtualización en sí misma ayuda a proteger los centros de datos del tiempo de inactividad del servidor. Al consolidar los servidores e interconectarlos en un entorno compartido, la virtualización permite que varias máquinas virtuales se ejecuten en diferentes hosts. La falla de cualquier host hará que la carga de trabajo se redistribuya entre los hosts restantes. "Un servidor puede fallar, pero eso no significa que afectará la entrega de todo el servicio", dijo Gabiam.

Para administrar de manera más efectiva el entorno virtualizado en expansión, compañías como Xenos Software, Uptime Software, Nimsoft y Nagios Enterprise han lanzado problemas diseñados para ayudar al personal del centro de datos a centrarse en el rendimiento y la ubicación del servidor. Una herramienta que aprovecha al máximo las oportunidades de mejora del rendimiento.

Beddoe siente que tal herramienta es esencial. "Debe tener algo tranquilizador para asegurarse de que todos sus servidores puedan hacer lo que se supone que deben hacer en cualquier momento".

Copyright © Conocimiento de Windows All Rights Reserved