Ocho pasos para solucionar problemas de los servidores AIX

  
                  

Pregunta 1: el servidor es más grande y la potencia de cálculo

En ese momento, necesitaba migrar un AIX5.3LPAR desde el antiguo servidor pSeries? p670 basado en POWER4? al pSeriesp570 basado en POWER6? En el servidor. Los recursos del servidor anterior son insuficientes (al utilizar WorkloadManager para administrar los recursos de la aplicación principal en el servidor), por lo que los nuevos recursos del procesador dinámico en el nuevo hardware deberían proporcionar la potencia informática que necesito. Ejecuté mksysb en este LPAR, luego utilicé NetworkInstallationManager para restaurarlo en un nuevo hardware y asignarlo a través del disco SAN.

Comencé este LPAR y se ve bien hasta que inicio la aplicación. De repente, el usuario comenzó a llamar. Simplemente no pueden acceder a sus productos. Cuando inicié sesión, descubrí que el servidor estaba completamente inactivo. No hay procesos en el servidor que consuman muchos recursos. ¿Por qué los usuarios tienen problemas?

Problema 2: un disco duro defectuoso no se puede desenmascarar

Uno de mis servidores tiene un disco raíz duplicado. Un día, el informe de error indicó que no se pudieron reubicar los bloques defectuosos en uno de los discos. Sé que esto es un precursor de una falla de hardware, por lo que comencé a deshacer el reflejo. Sin embargo, el servidor dice que el espejo no se puede desmontar completamente porque uno de los volúmenes lógicos solo tiene una copia en buen estado y está en el disco defectuoso. ¿Cómo debo resolver este problema y reemplazar el hardware?

Procedimientos de solución de problemas

Recuerde estas dos preguntas de muestra y ahora observe el proceso para resolverlas.

Paso 1: No pierdas el tiempo

Una vez que descubras que estás en problemas, lo más sensato es no desordenar. Al igual que Indiana · Jones está en los "Raiders of the Raiders", si encuentras que un dardo te golpea cuando pisas el suelo, entonces te detienes en el lugar y no te mueves. Más cambios solo complicarán el problema y pueden empeorar la situación. Cuando un problema afecta el funcionamiento normal del sistema, no tiene sentido tener que resolver múltiples problemas.

Para la primera pregunta de ejemplo, dejo que el usuario salga del sistema de inmediato y luego finalizo la aplicación. Sé que cuando el rendimiento es deficiente, las consultas y los comentarios del usuario se interrumpirán, lo que puede destruir sus datos. No quiero que su entorno cambie más antes de verificar el sistema. Aunque los usuarios no quieren escuchar que no pueden usar el nuevo servidor en este momento, saben que estoy buscando la causa del problema y estarán contentos. Además, esto me da tiempo para realizar otros pasos de solución de problemas a mi manera.

Paso 2: Comience con el comando básico, luego agregue complejidad.

Cuando estaba estudiando Kung Fu, escuché la historia de un cinturón negro de segundo nivel en la parada del autobús para castigar al ladrón. Los estudiantes querían saber qué truco utilizaba para acabar con el atacante. ¿Es un tigre dorado? ¿O es el círculo de palmas en la palma de tu mano? Incluso nos imaginamos que ella era muy poderosa y derribó a la otra persona con seres celestiales borrachos. El resultado no fue: usó una de las primeras técnicas de secreción vaginal en la clase: el codo golpeando el pecho y luego la nariz.

AIX proporciona comandos para verificar diversos aspectos del servidor, incluidos el hardware y el software. Incluso los comandos más básicos proporcionan una buena base para analizar problemas. Cuando la información no es suficiente o algo todavía no funciona correctamente, puede comenzar a experimentar con herramientas más complejas y poderosas. Sin embargo, debes comenzar con los comandos e ideas más simples, y luego usar herramientas más poderosas.

Para el segundo problema de ejemplo, primero busco problemas de hardware observando la salida errpt, luego uso el comando unmirrorvg, una herramienta simple pero poderosa para tratar de eliminar errores, en lugar de ejecutar rmlvcopy en cada volumen lógico en el disco Cuando descubrí que no se podía eliminar un volumen lógico, usé otros comandos básicos como lspv, lsvg y migratepv para recopilar información. Estoy intentando crear otra copia del grupo de volúmenes en otro disco con extendvg y mirrorvg. Esto todavía deja algunas particiones antiguas, así que fui un paso más allá, usando syncvg y synclvdom para coordinar el ObjectDataManager con el servidor. Finalmente, utilicé migratelp para intentar mover cada partición lógica fuera de este disco. Desafortunadamente, estas herramientas no funcionan, pero proporcionan mucha información.

Paso 3: reproduzca el problema

Según el método científico, el punto clave de cualquier hipótesis y experimento es poder reconstruir el proceso y producir el mismo resultado. Si no puedes, la conclusión es al menos incierta. En el peor de los casos, esto subvertiría la teoría de los científicos y socavaría su reputación, al igual que los físicos que afirmaban haber alcanzado la fusión fría a temperatura ambiente en los años noventa.

O, como dije: si no tienes éxito al principio, inténtalo en otro lugar para ver si puede causar el mismo problema.

Al administrar un servidor AIX, si algo sale mal y tiene los recursos necesarios para reproducir el problema, haga lo mismo en otro tipo similar de LPAR para ver si producirá el mismo El resultado. Si la modificación del mismo atributo en otro servidor producirá el mismo resultado, se puede inferir que esta operación es la fuente del problema. Sin embargo, si se produce el resultado opuesto, estudie los matices entre los servidores e intente averiguar la causa del problema.

Para la LPAR involucrada en el primer problema de ejemplo, encontré que el problema no surgió al intercambiar un disco SAN de nuevo al antiguo servidor p670 e iniciarlo. Los usuarios pueden acceder a sus aplicaciones, la CPU está en carga normal y la utilización de la CPU es más del 80% (10% kernel + 70% usuarios). Por lo tanto, puedo concluir que algo específico del servidor p570 está causando el problema, no algo que se introdujo durante el proceso de migración.

Paso 4: Preguntas de investigación

En la era de la información, puede obtener mucha información con solo presionar unas pocas teclas y unos pocos clics del mouse. Aún mejor, los administradores de sistemas suelen ser miembros de grandes comunidades, y la comunidad ha documentado muchos años de experiencia.

En primer lugar, debe verificar la información del fabricante y del vendedor. Empresas como IBM publican todos sus manuales, libros rojos, archivos técnicos e incluso páginas de manual en línea para investigación. Simplemente escriba una palabra clave simple en la barra de búsqueda en el sitio principal para encontrar muchas sugerencias e información útiles.

Otras fuentes de información que recomiendo incluyen grupos de noticias, foros y sitios que otros administradores de sistemas visitan con frecuencia. Las personas que trabajan con servidores todo el tiempo a menudo visitan sitios técnicos y comentan lo que ven durante el trabajo. Para la ayuda pública, la mayoría de los administradores de sistemas están felices de proporcionar sugerencias o ayuda por correo electrónico. Además, a menudo se puede encontrar información antigua relacionada con el sistema operativo y otras versiones del software, y se puede encontrar más información a través de ellos.

Para estas fuentes, el truco principal es utilizar el conjunto de palabras clave adecuado. Si utilizo un sitio web general como Google para estudiar los problemas de AIX, me aseguraré de que la cadena de búsqueda comience con AIX para excluir información relacionada con otros estilos de UNIX. Luego, puede contener la salida del comando o la etiqueta generada por errpt. También me aseguraré de poner comillas dobles alrededor de la frase específica (" ") para limitar la búsqueda a estos problemas específicos y evitar la información irrelevante, especialmente para palabras de uso común (como LogicalVolumeManager).

Para el problema de falla en la reubicación del bloque defectuoso del disco, buscar en Google usando la frase AIX < badblockrelocation " falla ha producido cientos de resultados, pero no parece coincidir con mi situación.

Paso 5: cancele todos los cambios

A veces, la forma más sensata de resolver un problema es cancelar todos los cambios que haya realizado y volver al estado original. Este paso no siempre es factible. A veces, un ejecutivo de nivel C demasiado entusiasta lo obliga a revertir sus servidores. O, debido a las limitaciones de tiempo, es necesario hacerlo. En cualquier caso, la reversión es una de las mejores tácticas para elegir.

Pongo este paso en medio de la lista de pasos de solución de problemas, porque a veces tengo que hacer esto antes, a veces más tarde. Pero según mi experiencia, creo que es mejor completar los primeros cuatro pasos antes de considerar cancelar todos los cambios. Si cancela los cambios inmediatamente al comienzo del proceso de solución de problemas, es probable que el problema no se resuelva y experimentará el mismo problema la próxima vez que intente el mismo trabajo. Si se retrae demasiado tarde en el proceso, afectará el tiempo de actividad o complicará el problema en la medida en que sea imposible retirarse.

Para el primer ejemplo, tuve que revertir la operación de migración del servidor debido al tiempo. Si el servidor de producción está fuera de servicio por un período de tiempo más largo, los usuarios y las empresas perderán dinero. Me tomó una semana reprogramar el trabajo, lo que me permitió investigar más, pero cuando volví a intentar la migración, el problema volvió a aparecer. Para el segundo ejemplo, no puede realizar una recuperación de problemas de hardware. No se puede decir al servidor ", ¡volver al estado antes de que ocurriera el error de reubicación del bloque defectuoso! " Tengo que seguir trabajando duro para superar la falla del disco.

Paso 6: Cambie solo una regla a la vez.

Si todos los pasos anteriores no funcionan y decide comenzar a cambiar los componentes principales o realizar operaciones más agresivas en el servidor, recuerde Una de las reglas más importantes: cambiar solo un lugar a la vez.

Múltiples cambios pueden resultar en una de dos situaciones. Primero, si estos cambios resuelven el problema, entonces no sabe qué cambio es una acción válida. Si no le importa qué resuelve exactamente el problema, puede que esto no sea un gran problema, pero los buenos administradores de sistemas desean aprender más porque saben que los problemas tienden a ocurrir varias veces en el mismo lugar. Segundo, si el problema no se resuelve, esto puede introducir más complejidad. Sigue haciendo esto y no sabrás qué cambio cancelar. Si vas lo suficientemente lejos, el sistema se convertirá en un montón de papillas y te confundirás.
(Hay una broma sobre esta situación en xkcd.)

Si el problema no se resuelve después de hacer un cambio, generalmente querrá cancelarlo e intentar otras cosas. En el primer ejemplo, este es el caso: cuando comparo los perfiles de HardwareManagementConsole de los dos servidores, los veo diferentes. Noté que el antiguo hardware POWER4 usa una CPU dedicada, mientras que el nuevo hardware POWER6 usa una agrupación de CPU compartida sin límite. Quiero saber cómo esta diferencia afecta el rendimiento de la CPU, así que modifiqué el perfil en el hardware POWER6 para usar una CPU dedicada. Curiosamente, según la opinión del usuario, el servidor "normal", lo vi en el procesador. Carga Por lo tanto, sé que el problema está definitivamente relacionado con los recursos de la CPU, pero es necesario averiguar por qué este es el caso.

Paso 7: Recurso a IBMSupport

Si ha intentado todos los pasos razonables y necesita nuevas ideas, por lo general, debe comunicarse con IBMSupport. Estas herramientas avanzadas de solución de problemas son competentes en el sistema operativo y Los expertos en cada aspecto de los productos relacionados (como VIO y PowerHA) pueden presentar casos relevantes para confirmar y ayudar a resolver problemas similares. Sin embargo, si no ha llamado al 800-IBM-SERV anteriormente, hay algunos puntos que debe entender.

Primero, debe tener un número de contrato de IBM. Existen múltiples niveles de soporte, desde el soporte más avanzado 24x7x365 por personal dedicado hasta las 8 am a 5 pm para servidores no críticos. Estos paquetes de soporte pueden comprarse directamente de IBM o contratarse con revendedores de valor agregado.

También debe proporcionar cierta información para que IBMSupport pueda recuperar su cuenta, generalmente el número de teléfono, el número de serie, el número de contrato o la ubicación física del servidor. Esta información depende en gran medida de si está creando una caja de hardware o una caja de software.

El personal de soporte también debe conocer la gravedad o la prioridad del problema. La prioridad se divide en varios niveles del 1 al 4. El nivel 1 generalmente implica el tiempo de inactividad del sistema o el impacto en la producción, y la llamada se reenvía inmediatamente al técnico para este nivel. El nivel 4 significa que el tiempo de procesamiento puede ser más largo y generalmente se usa para problemas generales de administración.

Después de describir el problema y crear un caso de asistencia, se le proporcionará un número de seguimiento, a menudo denominado PMR. Este número identifica este caso a otro personal de asistencia que trabaja con usted. El PMR de hardware y software es único, y si su problema cruza la frontera, deberá obtener un nuevo número.

Para ambas preguntas de ejemplo, tuve que contactarme con IBM. Para la primera pregunta, IBM movilizó a muchas personas de soporte de VIO al equipo del núcleo para resolver el problema. Para la segunda pregunta, solo participaron técnicos de hardware, y proporcioné información del comando snap para su análisis.

Paso 8: Ir Extremo

A veces, no hay otras maneras de resolver el problema, solo algunas medidas poco ortodoxas que la mayoría de las personas piensan que están locas. Esto generalmente se hace cuando estás desesperado e incluso el trabajo o la vida están en juego. En este caso, el personal de soporte de IBM a menudo dice: “Si hace esto, estará en un estado no compatible y deberá comenzar de nuevo antes de que podamos admitirlo. " Sin embargo, si su solución es efectiva, puede salvarlo.

Copyright © Conocimiento de Windows All Rights Reserved