Investigadores de la compañía Meta, dirigida por Mark Zuckerberg, han desarrollado un nuevo modelo de inteligencia artificial llamado I-JEPA, que es capaz de desarrollar imágenes a partir de texto usando mecanismos de la mente humana. La inteligencia imita los comportamientos racionales del ser humano para producir imágenes mucho más realistas que las provistas hasta el momento. El modelo de inteligencia artificial I-JEPA, arquitectura predictiva de incrustación conjunta de imágenes, por sus siglas en inglés, ha sido desarrollada con el fin de cambiar la percepción sobre los modelos robóticos inteligentes que surgen en la tecnología actual.

I-JEPA y el sentido común humano

La nueva inteligencia artificial del grupo Meta, ha sido creada gracias a las ideas de Yann LeCun, investigador jefe de Inteligencia Artificial en la compañía. El objetivo del llamado 'padre de la IA' era crear un modelo robótico que fuera prácticamente capaz de pensar y actuar como un ser humano.

En el proceso de experimentación, LeCun concluyó que para que esto fuera posible, era necesario que la inteligencia artificial aprendiera lo que es el sentido común que utilizan los humanos para racionalizar, afrontar situaciones desconocidas y predecir resultados futuros.

Los seis módulos que usa I-JEPA

El primer módulo es el configurador, el encargado de controlar y ejecutar el resto de módulos.

El segundo es el receptor, encargado de recibir señales del exterior a través de sensores. El módulo de modelo del mundo, permite a la inteligencia artificial estimar la información que falta partiendo de la percepción, o lo que es igual, predecir estados futuros del mundo.

El módulo de coste busca minimizar costes a largo plazo, es el lugar donde se encuentran los impulsos y las motivaciones.

Por último, se encuentran el módulo actor, que optimiza las acciones de la inteligencia artificial y el módulo de memoria a corto plazo, capaz de mantener un registro completo del estado en el que se encuentra la realidad.

Cómo genera imágenes I-JEPA

I-JEPA se diferencia del resto de inteligencias artificiales en que esta aplica sus seis módulos para usar el "sentido común" y ser más preciso en sus creaciones, mientras que otras IAs descomponen otras imágenes ya aprendidas para formar una nueva a modo de composición.

El método que usan las demás inteligencias artificiales es conocido como Midjourney o Stable Diffusion, que generan imágenes a partir de un texto gracias al modelo "diffusion".

"I-JEPA aprende creando un modelo interno del mundo exterior, que compara representaciones abstractas de imágenes (en lugar de comparar los propios píxeles)", explica Meta. La idea es que la inteligencia artificial I-JEPA sea capaz de representar información tal y como la comprendemos los humanos.

De esta manera, I-JEPA predice cómo se van a representar las distintas partes de una entrada, de texto o de imagen, a partir de otras partes ya expuestas a la inteligencia artificial. De tal forma que completa la información con exactitud.

Este avance en la eficiencia en la generación de imágenes, no solo supone un avance en la inteligencia artificial, sino que además sirve de punto de partida para otros muchos grandes proyectos. Meta ya ha anunciado que dará acceso a los componentes de I-JEPA para que otros investigadores trabajen productos sobre él y aseguran que es "solo el principio".

"Estamos deseando trabajar para ampliar el enfoque JEPA a otros dominios, como los datos emparejados de imagen-texto y los datos de vídeo", destaca Meta. "En el futuro, los modelos JEPA podrían tener aplicaciones interesantes en tareas como la comprensión de vídeos", concluye.