Los científicos de datos y desarrolladores del Departamento de Energía de EE.UU., en el Thomas Jefferson National Accelerator Facility, están explorando las últimas técnicas de inteligencia artificial (IA) para hacer que los sistemas de cómputo de alto rendimiento sean más confiables y menos costosos de operar.
En este caso, los modelos utilizados son redes neuronales artificiales entrenadas para monitorear y predecir el comportamiento de un clúster de computación científica, donde grandes volúmenes de datos se procesan constantemente.
El objetivo es ayudar a los administradores de sistemas a identificar y resolver rápidamente problemas en las tareas de cómputo, reduciendo el tiempo de inactividad para los científicos que analizan datos de sus experimentos, reporta Newswise.
En una especie de competencia al estilo de un desfile de moda, estos modelos de aprendizaje automático (ML) compiten para ver cuál se adapta mejor a los datos en constante cambio de los programas experimentales.
Pero a diferencia del popular reality show America’s Next Top Model y sus versiones internacionales, aquí no hace falta toda una temporada para coronar a un ganador: en esta competencia, un nuevo “modelo campeón” es elegido cada 24 horas, en función de su capacidad para aprender de los datos más recientes.
“Estamos tratando de comprender características de nuestros clústeres de cómputo que antes no habíamos visto,” explicó Bryan Hess, gerente de operaciones de computación científica en Jefferson Lab y uno de los principales investigadores del estudio. “Estamos observando el centro de datos de una manera más holística, y en el futuro, eso implicará algún tipo de modelo de IA o ML.”
Si bien estos modelos no ganan sesiones de fotos glamorosas, el proyecto recientemente fue destacado en la revista científica IEEE Software como parte de una edición especial dedicada al aprendizaje automático en operaciones de centros de datos (MLOps).
La importancia del estudio para la “Big Science”
Los instrumentos científicos de gran escala, como aceleradores de partículas, fuentes de luz y radiotelescopios, son instalaciones críticas del Departamento de Energía (DOE) que permiten descubrimientos científicos. En Jefferson Lab, el Continuous Electron Beam Accelerator Facility (CEBAF) es una instalación clave del DOE utilizada por más de 1,650 físicos nucleares a nivel global.
Los detectores experimentales en Jefferson Lab capturan débiles firmas de diminutas partículas generadas por los haces de electrones de CEBAF. Como el acelerador funciona las 24 horas del día, la cantidad de datos recolectados es inmensa: del orden de decenas de petabytes al año, suficiente para llenar el disco duro de una computadora portátil aproximadamente una vez por minuto.
Las interacciones de partículas son procesadas y analizadas en el centro de datos del laboratorio utilizando clústeres de cómputo de alto rendimiento con software personalizado para cada experimento.
En medio de luces parpadeantes y cables organizados, estos sistemas manejan tareas extremadamente complejas que requieren múltiples procesadores (cores). Sin embargo, esta naturaleza dinámica del trabajo significa más elementos en movimiento y más posibilidades de fallos.
Ciertos trabajos de cómputo o fallos en el hardware pueden causar anomalías en el comportamiento del clúster, como fragmentación de memoria o sobrecarga de entradas y salidas (I/O), lo que puede retrasar el análisis de datos de los científicos.
“A medida que los clústeres de cómputo crecen, se vuelve difícil para los administradores de sistemas rastrear todos los componentes que podrían fallar,” explicó Ahmed Hossam Mohammed, investigador postdoctoral en Jefferson Lab y coautor del estudio. “Queríamos automatizar este proceso con un modelo que encienda una luz roja cuando algo extraño ocurra.”
“De esta manera, los administradores del sistema pueden intervenir antes de que las condiciones empeoren.”
DIDACT: Inteligencia artificial para centros de datos
Para abordar estos desafíos, el equipo desarrolló un sistema de gestión basado en ML llamado DIDACT (Digital Data Center Twin). El nombre es un juego de palabras con el término didáctico, que se refiere a algo diseñado para enseñar. En este caso, la IA está aprendiendo sobre los sistemas de cómputo.
El proyecto DIDACT es financiado por el programa Laboratory Directed Research & Development (LDRD) de Jefferson Lab, que apoya investigaciones que pueden contribuir rápidamente a resolver problemas científicos y tecnológicos nacionales de alto impacto.
El sistema DIDACT está diseñado para detectar anomalías y diagnosticar su origen utilizando un enfoque de IA llamado aprendizaje continuo.
En este método, los modelos de ML son entrenados con datos que llegan de manera incremental, imitando el aprendizaje a lo largo de la vida de los humanos y los animales. El equipo de DIDACT entrena múltiples modelos de esta manera, cada uno representando la dinámica de los trabajos de cómputo en ejecución, y selecciona el mejor en función de los datos del día.
Estos modelos son variaciones de redes neuronales no supervisadas llamadas autoencoders. Uno de ellos incorpora una red neuronal basada en grafos (GNN), que analiza las relaciones entre los diferentes componentes del sistema.
“Compiten utilizando datos conocidos para determinar cuál tiene el menor margen de error,” explicó Diana McSpadden, científica de datos en Jefferson Lab y autora principal del estudio sobre MLOps. “El que tenga mejor desempeño en el día se convierte en el ‘campeón diario’.”
Este método podría, en el futuro, reducir el tiempo de inactividad en centros de datos y optimizar el uso de recursos críticos, lo que se traduciría en menores costos y una mejor eficiencia para la comunidad científica.
Cómo funciona DIDACT
Para entrenar estos modelos sin afectar el uso cotidiano del sistema de cómputo, el equipo DIDACT desarrolló un clúster de pruebas llamado “sandbox”. Se puede imaginar este sandbox como una pasarela donde los modelos compiten para demostrar cuál es el mejor en términos de aprendizaje y predicción.
El software DIDACT es un conjunto de código de código abierto y herramientas personalizadas que permiten desarrollar y gestionar modelos de ML, monitorear el sandbox y registrar los datos. Toda esta información es visualizada en un panel gráfico interactivo.
El sistema opera a través de tres canales o pipelines para la evaluación de modelos de ML:
- Desarrollo offline – Similar a un ensayo general antes de la implementación.
- Aprendizaje continuo – Aquí ocurre la competencia en vivo.
- Monitoreo en tiempo real – El modelo que gana el día se convierte en el principal monitor del clúster hasta que un nuevo modelo lo supere.
“DIDACT es una integración innovadora de hardware y software de código abierto,” explicó Hess, quien también es arquitecto de infraestructura en el High Performance Data Facility Hub, desarrollado en colaboración con el Lawrence Berkeley National Laboratory del DOE. “Hemos logrado combinar elementos que normalmente no se usarían juntos, y hemos demostrado que pueden funcionar. Esto refleja la gran experiencia de Jefferson Lab en ciencia de datos y operaciones de cómputo.”
En estudios futuros, el equipo de DIDACT quiere explorar un marco de ML que optimice el consumo energético de los centros de datos, ya sea reduciendo el flujo de agua en los sistemas de enfriamiento o ajustando dinámicamente la actividad de los procesadores según la demanda de datos.
“El objetivo siempre es obtener más resultados científicos por cada dólar invertido,” concluyó Hess.




