Truco experto: ¿Cómo solucionar el error de RAID 5 del servidor?

  
                  

Debido al continuo avance de la tecnología, los diferentes tipos de servidores tienen diferentes métodos de procesamiento después de la falla de RAID 5.

En la actualidad, la topología de red de las aplicaciones a gran escala generalmente adopta la estructura C /S o la estructura B /S. Al menos un servidor con una gran base de datos debe ubicarse en la sala de computadoras central. Basado en la seguridad y confiabilidad del servidor, el disco del servidor generalmente está respaldado por la matriz redundante de disco económico. El nivel de la matriz RAID 5 es una matriz de disco de paridad sin discos de paridad independientes. Utiliza el bloqueo de datos y la tecnología de acceso independiente para procesar múltiples solicitudes de acceso en paralelo en el mismo disco, a la vez que permite que falle cualquier disco duro de la matriz. .

En aplicaciones prácticas, algunas fallas en la matriz pueden ocurrir debido a algunas razones objetivas inevitables. La situación más común es que el disco duro está fuera de línea, el estado en línea se muestra como DDD (Unidad de disco obsoleta) y el disco duro tiene una falla física o lógica. Si se trata de un fallo físico, solo se reemplaza el disco duro, si se trata de un fallo lógico, puede restaurar el estado en línea del disco duro mediante una reparación técnica específica, continuar manteniendo el estado fragmentado de los datos del disco duro en su matriz original y continuar con el sistema de almacenamiento de datos. Consistencia

Sin embargo, la recuperación de datos para algunos de los servidores antiguos de HP (como el HP LH6000) es diferente de la recuperación de datos para servidores nuevos como la serie de servidores HP ProLian. Así que diferentes servidores manejan las fallas de RAID 5 de manera diferente. He estado expuesto a una falla de datos de la tarjeta de matriz RAID 5 causada por una falla de alimentación accidental de dos servidores, y resolví el problema adoptando diferentes estrategias.

Solución de problemas

Uno es el servidor HP LH6000 comprado en 2000. Cuatro discos duros de 18 GB están integrados en arreglos de discos RAID 5. La tarjeta de arreglos es NetRaid; la otra es 2006. El servidor HP ProLian ML370 comprado en el año, cuatro discos duros de 146 GB fabricados en una matriz de discos RAID 5, y la tarjeta de matriz es una Smart Array 642 con un repuesto dinámico (Hot Spare). Ambos sistemas operativos son Windows 2000 y la base de datos es Server 2000.

El HP LH6000 tiene las siguientes fallas: un disco duro parpadea en rojo y la máquina sigue funcionando normalmente, pero el sistema no tarda mucho en funcionar normalmente. Solo entonces se enciende la luz roja de otro disco duro.

La solución es la siguiente:

1. Inicie el servidor y presione Ctrl + M para ingresar al programa de administración de NetRaid cuando realice la prueba automática en la matriz. Verifique la información de la matriz y descubra que el estado del disco duro es fallido. Use la configuración modificada para forzar que el disco duro esté en línea. Reinicie el servidor, invalide la autoprueba del hardware antes de ingresar al sistema y el inicio falla.

2. Inicie el servidor y presione Ctrl + M para ingresar al programa de administración de NetRaid cuando realice la autoevaluación de la matriz. Seleccione la matriz de discos, falle manualmente el disco duro que se colgó en OnLine y luego configure manualmente otro disco duro con fallas en OnLine. Reinicie el servidor e ingrese al sistema.

3. Después de que el sistema y la base de datos se estén ejecutando normalmente, ingrese a la herramienta de configuración de la matriz para configurar manualmente el Disco duro con falla para Reconstruir, reinicie el servidor después de la reconstrucción del 100% y restaure todas las matrices y sistemas.

Otro servidor que ejecuta el sistema ERP (HP ProLiant ML370) en la unidad del autor, configurado por cuatro discos duros de 146GB intercambiables en caliente a través de una tarjeta RAID (Smart array array card) en una matriz RAID 5 RAID. . Uno de los discos duros falló repentinamente durante la operación. El servidor RAID 5 habilita automáticamente los repuestos en caliente (repuesto en caliente) para reemplazar lógicamente las unidades dañadas. La tarea de acceso a los datos de todo el disco duro aún se ejecuta completamente en la secuencia original de los procesos de lectura y escritura, y la aplicación y la base de datos no tienen efecto.

Verifique el estado del disco duro a través de la herramienta ACU que viene con HP, y descubra que el disco duro con alarma de luz roja está desconectado. Si dos discos duros en el Raid 5 del servidor HP ProLiant están rojos, indica que el sistema se ha bloqueado y no se puede acceder a la base de datos, pero el sistema no se apaga automáticamente. Cuando el segundo disco duro está encendido en rojo, los datos no pueden recuperarse por medios convencionales. Solo la empresa de recuperación de datos de terceros que paga para encontrar un profesional recupera los datos.

Por lo tanto, para los servidores HP de la serie HP LH6000, el diseño de la matriz es muy diferente de la matriz de los servidores de la serie HP ProLiant. En lo que respecta al método de operación, el método de operación de matriz del servidor HP LH6000 tiene muchas opciones, incluida la posibilidad de volver a eliminar la matriz y reconstruir después de que falle la matriz, y la inicialización también se selecciona manualmente. Sin embargo, la inicialización de la serie HP ProLiant de arreglos de servidores se realiza automáticamente en segundo plano después de que se configura el arreglo, por lo que los servidores de la serie ProLiant no pueden reconfigurar el arreglo después de un error en el arreglo.

El servidor HP LH6000 causará que el disco en la matriz se caiga debido a otras razones inesperadas. El personal de mantenimiento puede seleccionar manualmente en línea o fuera de línea, reconstruir, etc. para recuperar datos. Sin embargo, los servidores actuales de la serie HP ProLiant ya no tendrán una caída de disco como el servidor anterior en la matriz, por lo que cuando el disco duro está rojo, el disco duro está básicamente dañado y debe ser reemplazado. Por supuesto, puede optar por volver a enchufar el disco duro para reconstruir (Reconstruir) y ver si el disco duro se puede usar por un tiempo.

Copia de seguridad técnica

De los dos ejemplos anteriores, se puede ver que la misma marca y diferentes series de servidores tienen diferentes fallas en el disco Raid 5 debido a sus diferentes tecnologías. . Pero después de reconstruir los datos, los datos se guardan y se puede extraer la siguiente experiencia:

Creemos que cualquier tecnología avanzada no es infalible. Si desea garantizar la seguridad de los datos, debe hacer un trabajo de copia de seguridad, lo mejor es hacer una copia de seguridad remota de la base de datos una vez al día. Reserve al menos un nuevo disco duro. Cabe señalar que el disco duro agregado a la matriz debe ser mayor o igual a la capacidad del disco duro defectuoso.

Si las condiciones lo permiten, se recomienda el esquema de creación de discos de repuesto en caliente RAID 5+. De esta manera, tenemos dos posibilidades de reemplazar el disco duro antes de que se pierdan los datos. Para aplicaciones generales, solo RAID 5 se puede usar para proporcionar rendimiento de acceso a datos, confiabilidad y máximo espacio en disco.

Los administradores deben observar constantemente el estado de la matriz, incluida la visualización de las luces de advertencia amarillas de la matriz de discos y el estado de la unidad en el software de administración. Se produjo un fallo y se eliminó a tiempo. Independientemente del nivel de la matriz, se debe hacer una copia de seguridad de los datos antes de solucionar problemas.

Copyright © Conocimiento de Windows All Rights Reserved