Las fallas del sistema pueden ser causadas por una variedad de razones, y puede tomar 10 minutos, horas o incluso días para que el servidor vuelva a la normalidad.
Mi unidad original es el núcleo de la red en un determinado distrito de Beijing, y hay más de 20 plataformas de aplicaciones para diferentes departamentos comerciales. Hay más de 20 sitios web externos y OA en departamentos importantes. La plataforma de oficina de automatización de redes del gobierno se construyó a principios de 2001. Después de cinco años de actualización y transformación, ahora se está ejecutando la cuarta edición. Esta plataforma no solo sirve como plataforma de información y comunicación para todas las unidades gubernamentales, oficinas de comisiones, oficinas de subdistritos, etc., sino también como operador de circulación para todo el documento oficial. El estado puede ser imaginado.
un día para encontrar un servidor sustituto
, el área central de fallo del servidor serio, lo que resulta en la pérdida de datos. Como director de información con diez años de experiencia laboral, estoy sorprendido por la falla de este servidor en algunos años. Creo que todos conocen el sentido común de la administración de redes, es decir, cuanto mayor es la tasa de uso, mayor es la tasa de fallas. Alta
Un mes después de la reparación del servidor, la unidad me envió a participar en una clase de seguridad de red. De hecho, he oído hablar del término "espera en caliente de dos máquinas", pero realmente lo entiendo por la "garantía de continuidad del negocio" en la clase.
muchos fabricantes como explicamos el momento de la conversión, de hecho, es imposible, por los efectos de la aplicación práctica de ellos, o de algunos de los casos reales, podemos ver fácilmente "cero" que se trata de un pariente Tiempo "cero". Un sistema típico que puede mantener una conversión de host durante 1 minuto ya es un buen diseño. //El software y la red de aplicaciones de hardware WWW.45IT.COM
La copia de seguridad en caliente del sistema dual resuelve el problema del servicio ininterrumpido cuando falla el servidor principal, pero en la aplicación real, pueden aparecer varias unidades. El caso del servidor, el servidor "cluster".
(Necesito explicar aquí, de acuerdo con la traducción correcta del Clúster, deberíamos nombrar este multiservidor exactamente: clúster, no clúster). Si explicamos el sistema de espera activa más específicamente, entonces puede entenderse como Activo ( Activo) Dos servidores que existen en el modo de espera, que juntos utilizan un dispositivo de almacenamiento compartido. Solo se ejecuta un servidor al mismo tiempo. Cuando uno de los servidores que se ejecutan no se inicia, el otro servidor de respaldo activa el servidor en espera mediante diagnósticos de software (generalmente llamado diagnóstico de latido) para garantizar que la aplicación se ejecute en poco tiempo. El interior está completamente restaurado a su uso normal.
Preparándose para implementar un sistema de espera activa de sistema dual
Después de regresar de la clase, nuestra unidad realizó una reunión de trabajo mensual de acuerdo con el ejemplo. Con el plan de establecer una plataforma de información de seguridad en nuestro distrito, propuse La necesidad de establecer en espera caliente. Nuestro departamento de sistemas recibe no menos de 30 fallas de sistema todos los días. Estos tipos de fallas son numerosos, como fallas de equipos, fallas de sistemas operativos, fallas de sistemas de software, etc. operadores de redes
y administradores de sistemas restaurar artificialmente servidor normal pueden tomar 10 minutos a varias horas o incluso días. Y si el técnico no está en el sitio, el tiempo para restaurar el servicio será más largo. La falla de este OA es especial. Algunos ingenieros de sistemas pueden no encontrar una situación así durante toda su vida: dos discos duros en la matriz de discos RAID5 se eliminan simultáneamente, el sistema de respaldo acaba de migrar a la nueva sala de computadoras. Nunca se encontró la presión que se sentía en ese momento. Al agradecer a los ingenieros de IBM por su reparación oportuna, creo que es más importante establecer un sistema de seguridad más completo.
todos sabemos la verdad: tasa de fallo del servidor que el interruptor, el fracaso es dispositivos de almacenamiento mucho más altas. El motivo es fácil de entender. Un servidor es un dispositivo mucho más complejo que un conmutador o dispositivo de almacenamiento. Incluye hardware y un sistema operativo y un sistema de software de aplicación. Decidir si usar el modo de espera en caliente es la forma correcta de analizar la importancia del sistema existente y la tolerancia a la interrupción del servicio para determinar si usar el modo de espera en caliente.
fracaso no sólo el equipo puede causar interrupciones en el servicio, y problemas de software también puede provocar que el servidor no funciona correctamente. Decidió adoptar la "condición final = tiempo de tolerancia del usuario - tiempo de recuperación del sistema" del sistema de espera activa del sistema dual. Según el cuestionario anterior y la consulta de consulta diaria, el tiempo de espera más largo del cliente de OA no es más de una hora. El tiempo más rápido que necesitamos para recuperarnos de una copia de seguridad es más de 6 horas. Se puede ver que es imperativo establecer un sistema de espera en caliente de sistema dual. Cómo elegir desplegar formas reserva en caliente informe
también golpeó, se aprueban los fondos, comenzar a montar el escenario hice difícil. Entiendo que hay dos modos de implementación para el modo de espera en caliente. La razón para dudar es ¿de qué manera elegir? Uno se basa en el dispositivo de almacenamiento compartido, y el otro es la forma en que no hay un dispositivo de almacenamiento compartido, generalmente llamado software puro.
Uso compartido de almacenamiento
Para este método, se utilizan dos servidores, que están compuestos por dispositivos de almacenamiento compartido (cabinas de matriz de discos o red de área de almacenamiento SAN). En el proceso de proporcionar servicios externos, los dos servidores proporcionarán servicios con una dirección IP virtual. Cuando un servidor falla, el otro servidor toma una decisión en función de la situación de la detección de latidos y cambia para hacerse cargo del servicio. Debido al dispositivo de almacenamiento compartido, los dos servidores usan virtualmente la misma cantidad de datos y son administrados por software de máquina doble o de clúster.
realización software Brevemente puro, una realización completamente de software es a través del reflejo de software, la replicación en tiempo real de los datos a otro servidor, de modo que los mismos datos está presente en cada uno de los dos servidores Una, si un servidor falla, puede cambiar a otro servidor a tiempo. En otro caso, el clúster no necesita usar almacenamiento compartido, pero puede usar el software de doble máquina o clúster directamente. Pero esta situación en realidad no está relacionada con el software de creación de reflejo, es solo un cambio en el modo de uso compartido anterior.
después de un sistema de discusión de grupo, y finalmente optó por la "memoria compartida". Hay tres razones: 1.
OA está construido sobre la plataforma de Windows IIS + SQL Server, usando los problemas de compatibilidad de servicios de Windows Cluster no surgen.
2. clúster de Windows puede ser establecida por un simple formación a lo largo del sistema de gestión de grupos, universal, sino también para asegurar que las futuras actualizaciones no causarán problemas.
3. Teniendo en cuenta la cantidad de datos de la OA en el futuro, el dinero para comprar el software en más razonable en el dispositivo de almacenamiento.
período de varios años posteriores, durante el cual el sistema de reserva en caliente apareció punto único de fallo. Uno de ellos fue que después de que se instaló un parche en el sistema, no se pudo iniciar IIS. La razón se encontró después de que el proveedor de OA simuló la falla juntos. Sin embargo, OA no ha parado en este año.