miércoles, 28 de diciembre de 2011

Oracle, máquinas virtuales y tiempo raro

Si tu has usado máquinas virtuales bastante, quizás sepas que algunas veces hay problemas con el tiempo de las máquinas virtuales y que es una buena práctica mantener el tiempo en sincronía (con servicios como NTP). Los problemas que he visto con el tiempo de las máquinas virtuales han estado relacionados principalmente con carga pesada y hardware no óptimo para dicha carga, pero hay más problemas relacionados con máquinas virtuales aparte de estos.

Un día tuve un problema raro con una base de datos Oracle 10g: de pronto había muchos datos de AWR y el tablespace estaba creciendo rápido. El intervalo entre muestras era de una hora y el tiempo de retención de siete días, pero al investigar más a fondo descubrí que los snapshots estaban siendo hechos cada minuto:

SQL> select snap_interval, retention from dba_hist_wr_control;

SNAP_INTERVAL RETENTION
---------------------------------------- -------------------
+00000 01:00:00.0 +00007 00:00:00.0

SQL> select SNAP_ID, STARTUP_TIME, BEGIN_INTERVAL_TIME, END_INTERVAL_TIME from dba_hist_snapshot order by SNAP_ID;

SNAP_ID STARTUP_TIME BEGIN_INTERVAL_TIME END_INTERVAL_TIME
-------- ---------------------------- --------------------------- --------------------------
8123 04-JUL-10 07.34.43.000 PM 19-JUL-10 10.07.28.091 AM 19-JUL-10 10.08.35.353 AM
8124 04-JUL-10 07.34.43.000 PM 19-JUL-10 10.08.35.353 AM 19-JUL-10 10.09.46.060 AM
8125 04-JUL-10 07.34.43.000 PM 19-JUL-10 10.09.46.060 AM 19-JUL-10 10.10.56.047 AM
8126 04-JUL-10 07.34.43.000 PM 19-JUL-10 10.10.56.047 AM 19-JUL-10 10.12.04.798 AM
8127 04-JUL-10 07.34.43.000 PM 19-JUL-10 10.12.04.798 AM 19-JUL-10 10.13.13.762 AM
8128 04-JUL-10 07.34.43.000 PM 19-JUL-10 10.13.13.762 AM 19-JUL-10 10.14.24.432 AM
...

Revisé muchas cosas en la base de datos Oracle pero después de no encontrar nada me imaginé que había un problema con el sistema operativo. El tiempo estaba bien pero el comando top refrescaba la información bastante rápido, por lo que intenté con top -d 300 y esta vez la información se refrescaba cada tres segundos ... Aún si debía refrescarse cada cinco minutos con top -d 300.

Después de encontrar esto notifiqué a los administradores de sistemas esta situación y algún tiempo después el problema fue arreglado, pero los administradores de sistemas nunca me dijeron cuál fue el problema; creo que el problema estaba relacionado con un bug de VMware:

Weird timing voodoo. Linux top command very fast

No hay comentarios.:

Publicar un comentario