nano-JEPA: Una propuesta para posibilitar la interpretación de video usando computadoras personales
Palabras clave:
Predicción de Características, Aprendizaje No Supervisado, Representación Visual, Video, JEPAResumen
V-JEPA es un modelo de inteligencia artificial cuyo objetivo es comprender y predecir el contenido de vídeos. Utiliza un enfoque de aprendizaje autosupervisado; se pre-entrena con datos sin etiquetar y luego se adapta a tareas específicas. Aprende a predecir partes perdidas o enmascaradas de un vídeo, obligando al modelo a comprender y desarrollar una visión integral de la escena. Pretende desarrollar una inteligencia artificial que aprenda de manera similar a los humanos, formando modelos internos del mundo que les rodea para adaptarse y completar tareas de manera eficiente. Sin embargo, sus enormes demandas computacionales, que suelen requerir potentes clústeres de GPU, limitan la accesibilidad para muchos investigadores. Por ello se propone nano-JEPA, una adaptación de V-JEPA para ejecutarse en computadoras personales, incluso sin GPU. Se presenta además el repositorio de nano-conjuntos de datos (nano-datasets), que facilita la creación de subconjuntos manejables a partir de grandes conjuntos públicos de datos de vídeo. El objetivo es permitir una mayor participación y experimentación en la investigación con modelos similares a V-JEPA. Se pudo observar un rendimiento razonable de nano-JEPA en tareas posteriores, abriendo puertas para una mayor exploración e innovación.
Descargas
Métricas
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2025 Adrián Rostagno, Javier Iparraguirre, Joel Ermantraut, Guillermo R. Friedrich

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.



