El análisis simple de los problemas de disponibilidad del servidor

  

Como un servidor indispensable en la construcción de informatización de la arquitectura de hardware siempre ha sido una preocupación, al mismo tiempo, la actualización del servidor también es testigo del desarrollo de la tecnología líder en el mundo, ya sea la original El procesamiento de 16 bits, o un procesador de 32 bits que más tarde fue exitoso, incluso incluyendo los procesadores de 32 bits y 64 bits que ahora son compatibles al mismo tiempo, y la próxima era de procesadores puros de 64 bits. Aunque el servidor ha experimentado cambios constantes, tiene un punto. El tema eterno es la disponibilidad del servidor. Si un servidor no puede garantizar la disponibilidad más básica, no podrá entrar en la gran etapa de los tiempos.

¿Cuál es exactamente la disponibilidad del servidor? ¿Qué incluye? ¿Por qué estás tan preocupado? A continuación vamos a responder uno por uno.

La facilidad de uso del servidor es exigir que el servidor tenga una alta confiabilidad, alta estabilidad, fácil administración y mantenimiento, que no se bloquee y funcione mal de vez en cuando, y que minimice el fenómeno del tiempo de inactividad. Debido a que en la mayoría de los casos, el servidor requiere trabajo continuo e ininterrumpido, es muy importante que su rendimiento sea estable y confiable. Si una PC normal falla y se reinicia, como máximo, se perderá parte de la información del documento y una pequeña cantidad de datos en la computadora. No causará grandes pérdidas económicas. Pero si el servidor falla, las consecuencias serán inimaginables. Debido a que muchos datos importantes, datos, información y registros se almacenan en el servidor, especialmente muchos servicios de red que se ejecutan en el servidor. Una vez que el servidor falla, causará una gran cantidad de pérdida de datos, muchas pausas importantes de negocios, como el acceso proxy a Internet, la seguridad. La verificación, los servicios de correo electrónico, etc. no serán válidos. Si es una red que debe facturarse, no podrá proporcionar datos de facturación precisos. No solo será imposible lograr una operación segura, sino que toda la red quedará paralizada y sus pérdidas son difíciles de estimar. Es fácil de administrar y mantener, y es muy divertido para usuarios no profesionales usar la administración más sencilla para mantener todos los dispositivos en la red. Entonces, en resumen, la alta confiabilidad, la alta estabilidad y la fácil administración y mantenimiento son las manifestaciones concretas de la disponibilidad del servidor.

¿Pero cómo garantiza la disponibilidad en el diseño de la arquitectura de hardware del servidor? La clave es hacer redundancia de hardware y diagnósticos de hardware en línea. La redundancia de hardware común incluye: redundancia de disco, redundancia de alimentación y redundancia de ventilador, así como también redundancia de RAM, redundancia de adaptador PCI y redundancia de tarjeta de red; los diagnósticos de hardware en línea deben incluir: intercambio en caliente Tecnología, tecnología de protección de memoria, tecnología de corrección de errores y verificación de memoria, tecnología de duplicación de memoria, tecnología de conmutación /adición en caliente de memoria, tecnología PCI activa, tecnología de diagnóstico activo, etc.

La redundancia de hardware es más fácil de entender. Es una copia de seguridad redundante de los componentes del hardware para garantizar las fallas del sistema de hardware causadas por el daño de algunos componentes. Sin embargo, debido al costo del equipo, no se puede hacer. La redundancia de los componentes es generalmente la redundancia de algunos componentes clave. Por ejemplo, la tecnología de redundancia de disco es la tecnología RAID que la gente suele decir, es decir, que los diferentes discos duros independientes (discos duros físicos) son diferentes. Los métodos se combinan para formar un grupo de disco duro (disco duro lógico), lo que proporciona un mayor rendimiento de almacenamiento y redundancia de datos que un solo disco duro. En los productos de servidor actuales, básicamente adopte esta tecnología, admita RAID0, RAID1, de modo que el servidor pueda utilizar completamente el ancho de banda del bus para completar la operación de datos, mejorar significativamente el rendimiento de acceso general del disco y maximizar la disponibilidad de los datos del usuario. . Al mismo tiempo, algunos de los productos de servidor actuales pueden proporcionar respaldo redundante de doble alimentación y doble ventilador, y también pueden admitir la tecnología de intercambio en caliente, lo que crea un estado de trabajo de carga fácil para las fuentes de alimentación y los ventiladores, lo que reduce la energía o el daño del ventilador. Los problemas internos del sistema han evitado fundamentalmente el funcionamiento inestable y el tiempo de inactividad del servidor.

Pero no es suficiente para proporcionar redundancia de hardware. También requiere una tecnología de diagnóstico de hardware en línea para que la disponibilidad del servidor sea extrema. Por ejemplo, la tecnología de intercambio en caliente significa que algunos componentes se pueden insertar y marcar cuando el sistema recibe alimentación. Esto es muy importante porque cuando encontramos que algunos componentes están dañados, pero debido a la redundancia de hardware provista, el sistema puede continuar funcionando bien. Necesitamos reemplazar el dispositivo dañado. Si no hay tecnología de conexión en caliente, debemos apagar la alimentación del servidor para hacerlo, lo que hará que el servidor artificial se detenga. La mayoría de los productos de servidor en la Aerospace Alliance han adoptado las funciones de soporte de conexión en caliente de hardware, como fuente de alimentación, disco duro, ventilador, memoria, tarjeta de red, etc.

Aquí también debemos mencionar la tecnología de corrección de errores de memoria ---- Tecnología de memoria ChipKill, que es un nuevo estándar de protección de memoria ECC. Como el rendimiento de la CPU de los servidores basados ​​en arquitecturas de procesadores Intel se incrementa en un múltiplo del nivel geométrico, el rendimiento de la unidad de disco duro solo se incrementa en un factor de cinco, para obtener el rendimiento suficiente. El servidor necesita una gran cantidad de memoria para almacenar temporalmente los datos leídos en la CPU, de modo que una gran cantidad de acceso a los datos resulta en 4 (32 bits) u 8 (64 bits) de datos por acceso en un solo chip de memoria. . Al leer tantos datos a la vez, la posibilidad de múltiples errores de datos aumenta considerablemente, y ECC no puede corregir los errores de doble bit, lo que probablemente cause la pérdida de todos los datos de bits, y el sistema colapsará rápidamente.

La cantidad de memoria instalada en un servidor está aumentando, y la posibilidad de errores relacionados con la memoria en el sistema está aumentando. Por lo tanto, en términos de garantizar la confiabilidad de los productos del servidor, no solo la tecnología de reparación Chipkill, sino también algunos métodos de hardware puro como la protección de memoria, la duplicación de memoria y el rendimiento de intercambio en caliente, y algunos métodos de software como la tecnología de adición en caliente de memoria se utilizan para garantizar la fiabilidad del dispositivo. La sexualidad hace que la disponibilidad de todo el sistema sea lo más reflejado.

La duplicación de memoria es hacer dos copias de los datos de la memoria, que se colocan en la memoria principal y la memoria espejo. Cuando el sistema funciona, los datos se escriben en ambas memorias al mismo tiempo, por lo que hay dos copias de seguridad completas de los datos de la memoria. Debido a la duplicación de imágenes cruzadas entre los canales, cada canal tiene un conjunto completo de copias de datos de memoria.

Se establece un "umbral de tolerancia a fallos" en el conjunto de chips del sistema. Si alguna memoria alcanza el "umbral de tolerancia a fallos", su canal se marca y el otro canal funciona solo. Pero aún así mantener el ancho de banda de memoria de doble canal.

La duplicación de memoria previene efectivamente la pérdida de datos debido a una falla de memoria. La memoria duplicada y la memoria principal están distribuidas en diagonal. Si uno de los canales falla, el otro canal todavía tiene los datos de la memoria del canal defectuoso, lo que evita efectivamente la pérdida de datos debido a la falla del canal de memoria, mejorando en gran medida el servidor. Fiabilidad. La memoria duplicada tiene una capacidad mayor o igual que la capacidad de la memoria principal. Cuando el sistema está funcionando, el sistema no reconoce la memoria duplicada. Por lo tanto, en términos de inversión, la inversión en protección de datos de imagen de memoria se duplica sin protección de memoria.

Cuando la memoria está en espera (Sparing), la memoria para la copia de seguridad en caliente no se usa en condiciones normales, lo que significa que el sistema no ve esta parte de la capacidad de la memoria. No se utiliza un DIMM en cada canal de memoria y está reservado para la memoria de repuesto en caliente. El umbral del número de errores de comprobación de memoria se establece en el conjunto de chips, es decir, el número de errores por unidad de tiempo. Cuando el número de fallos en la memoria de trabajo alcanza este "umbral de tolerancia a fallos", el sistema inicia una operación de doble escritura, uno escribe en la memoria principal y otro escribe en la memoria de reserva activa. Cuando el sistema detecta que los dos datos de la memoria son coherentes, la memoria de espera activa reemplaza a la memoria principal. La memoria funciona, la memoria de fallas se deshabilita, por lo que se completa la tarea de trabajo de la memoria de fallas de reemplazo de la memoria de espera activa, evitando efectivamente la pérdida del sistema debido a una falla de la memoria o el tiempo de inactividad del sistema. La capacidad de este repuesto dinámico debe ser mayor o igual a la capacidad de memoria máxima del canal en el que reside para cumplir con los requisitos de capacidad máxima para la migración de datos de memoria.

Como todos sabemos, el sobrecalentamiento del sistema es la principal razón que afecta la estabilidad del servidor. ¿Cómo garantizar que la temperatura del servidor se ejecute a plena carga durante un tiempo prolongado en un entorno hostil? Por ejemplo, el enfoque de adoptar el viento hacia adelante es diferente de la forma de la entrada de aire lateral. Este modo de admisión de aire garantiza que el servidor instalado en el bastidor pueda tener una fuente de viento sin obstrucciones durante el proceso de aplicación real. El ventilador redundante solo se proporciona para garantizar que cuando un ventilador de refrigeración falla y no funciona como un disipador de calor, el otro ventilador funcionará de inmediato, asegurando una cierta capacidad de disipación de calor.

Hoy en día, algunos productos de servidor han agregado una ruta de guía de aire única para concentrarse y controlar la dirección del viento. La solución al problema de la disipación de calor mejora la confiabilidad del sistema y extiende efectivamente la vida útil de los componentes.

Copyright © Conocimiento de Windows All Rights Reserved