Un robot vio cientos de horas de YouTube y lo que aprendió dejó a los científicos sin palabras

Publicado el: 18 de febrero de 2026 a las 09:44

Robot humanoide EMO sincronizando labios tras aprender viendo vídeos de YouTube.

Un robot humanoide ha logrado algo que hasta hace muy poco sonaba a ciencia ficción. EMO, desarrollado por un equipo de Columbia Engineering, ha aprendido a sincronizar sus labios y gestos faciales con la voz humana tras mirarse al espejo y ver durante horas vídeos de personas hablando y cantando en YouTube, sin que nadie le programe reglas paso a paso. El resultado se ha presentado en enero de 2026 en la revista Science Robotics.

Un robot que se mira al espejo como un niño

El entrenamiento de EMO empieza de una forma sorprendentemente cotidiana. Los investigadores colocan la cabeza robótica frente a un espejo y dejan que haga miles de muecas y movimientos aleatorios. Mientras tanto, la inteligencia artificial que lo controla va apuntando qué combinación de motores produce cada gesto que aparece reflejado en la “cara” de silicona.

En la práctica, es como ver a un niño pequeño probando gestos delante del espejo para entender cómo se mueve su propia cara. A partir de esa autoexploración, el sistema construye un mapa entre las órdenes internas y las formas de la boca, las mejillas o la mandíbula. Ese mapa será la base para todo lo que viene después.

La parte física también marca la diferencia. EMO tiene una piel de silicona blanda y cuenta con 26 motores escondidos bajo la superficie, además de un mecanismo con diez grados de libertad en los labios, lo que le permite movimientos continuos y muy finos, lejos de las mandíbulas rígidas de muchos humanoides actuales.

Del maratón de YouTube a hablar en diez idiomas

Cuando EMO ya sabe cómo responde su propia cara, llega el momento de “salir al mundo”. El robot pasa horas “viendo” vídeos de personas hablando y cantando en distintos idiomas en YouTube. La IA va asociando lo que oye con lo que ve que hacen las bocas humanas y aprende a traducir directamente el sonido en movimientos de sus propios motores faciales.

Lo llamativo es que el sistema no necesita entender las palabras. No hace falta que reconozca fonemas ni que alguien le enseñe reglas de pronunciación. Trabaja por pura observación y patrón, igual que cuando una persona imita un acento escuchando a otros.

Según el resumen técnico del proyecto, EMO ha sido capaz de articular discurso en diez idiomas que no estaban presentes en la fase inicial de entrenamiento, lo que indica que el modelo generaliza mas allá de los ejemplos concretos que vio al principio.

Como guiño final, el equipo ha ido un paso mas lejos y ha publicado un álbum generado por inteligencia artificial, “hello world_”, en el que el robot canta mientras mueve los labios siguiendo lo aprendido.

Por qué importa tanto que un robot mueva bien la boca

Puede parecer un detalle menor comparado con que un robot camine o coja objetos, pero los propios investigadores recuerdan que, en una conversación cara a cara, casi la mitad de nuestra atención visual se centra en la boca de nuestro interlocutor. Si los labios no acompañan bien a la voz, aparece esa sensación extraña que llamamos “valle inquietante”.

Hasta ahora, muchos robots sociales usaban movimientos predefinidos o muy simples, que daban como resultado caras rígidas y poco creíbles. Con EMO, el equipo ha probado un enfoque distinto. Utiliza un modelo de visión a acción que enlaza directamente lo que “ve” con la acción de los motores, sin tablas de reglas ni guiones fijos.

En pruebas con mas de mil trescientas personas, las secuencias de labios generadas por este modelo fueron las preferidas en torno a un sesenta por ciento de las veces frente a enfoques mas básicos, como mover la boca solo en función del volumen del sonido.

Hacia robots mas cercanos y también mas polémicos

El director del laboratorio, Hod Lipson, admite que “algo casi mágico ocurre cuando un robot aprende a sonreír o a hablar solo observando y escuchando a los humanos”. El investigador principal, Yuhang Hu, añade que, cuando esta capacidad se combina con modelos conversacionales como ChatGPT o Gemini, la sensación de conexión con el robot gana una profundidad completamente nueva.

En la vida diaria, esto podría traducirse en máquinas que acompañan a personas mayores, asisten en hospitales o ayudan en educación con una comunicación mucho mas natural. No se trataría solo de que el robot responda con la frase correcta, sino de que lo haga con una expresión facial que encaje con lo que dice, algo que cualquiera nota al primer vistazo.

Pero no todo son promesas. El propio equipo reconoce que la tecnología tiene límites y riesgos. EMO todavía falla mas con sonidos complicados para los labios, como las consonantes “B” o los gestos de “puchero” necesarios para una “W”. Y, sobre todo, advierten de que dar a los robots una capacidad tan fina para conectar con las personas será “una tecnología muy poderosa” que exige avanzar despacio y con cuidado para aprovechar sus ventajas minimizando los posibles usos abusivos.

La gran pregunta que queda en el aire es sencilla y, a la vez, incómoda. Si un robot puede aprender a hablar y cantar solo mirando vídeos, como haría un chaval con su móvil, ¿cuánto tardará en formar parte del paisaje cotidiano de casas, colegios o residencias sin que casi nos demos cuenta?

El estudio científico que describe este trabajo, titulado “Learning Realistic Lip Motions for Humanoid Face Robots”, ha sido publicado en la revista Science Robotics.

Foto: Columbia Engineering

Un robot vio cientos de horas de YouTube y lo que aprendió dejó a los científicos sin palabras

Un robot que se mira al espejo como un niño

Del maratón de YouTube a hablar en diez idiomas

Por qué importa tanto que un robot mueva bien la boca

Hacia robots mas cercanos y también mas polémicos

Adrian Villellas

Noticias relacionadas

China anuncia un ‘tesoro’ bajo Hunan: más de 1.000 toneladas de oro… pero falta la prueba clave

Revelan que el cometa interestelar 3I/ATLAS mide 2,6 km y trae una señal química que desconcierta

China presenta su plan a 100 años para “explotar” el sistema solar: la hoja de ruta hasta 2100, década a década

Países Bajos coloca electrodos en el casco y “lee” a sus pilotos: la IA sube la presión para que no se relajen

Japón perfora el epicentro del tsunami de 2011 y lo que busca bajo el mar es clave para evitar una catástrofe mundial

La ciencia analiza qué le pasa a tu cerebro cuando no haces nada y el hallazgo obliga a replantear tu descanso

Deja un comentario Cancelar la respuesta

La avalancha de textos generados por IA está colapsando el sistema judicial y saturando universidades

No fue Google ni OpenAI: el barrio chileno que respondió más de 25 mil preguntas del mundo sin usar inteligencia artificial ni gastar agua

Malasia intercepta cargamento de crudo valorado en 129 millones de dólares durante operación secreta en el mar frente a Penang

Después de 20 años de promesas y retrasos, Rusia y Kazajistán por fin lanzarán el poderoso cohete Soyuz-5 desde Baikonur en marzo de 2026

China anuncia un ‘tesoro’ bajo Hunan: más de 1.000 toneladas de oro… pero falta la prueba clave

Canadá revisa sus F-35 y EEUU lanza el aviso: “llenaremos el hueco”, aunque implique volar más sobre su territorio

Revelan que el cometa interestelar 3I/ATLAS mide 2,6 km y trae una señal química que desconcierta

China presenta su plan a 100 años para “explotar” el sistema solar: la hoja de ruta hasta 2100, década a década

Un robot vio cientos de horas de YouTube y lo que aprendió dejó a los científicos sin palabras

Un robot que se mira al espejo como un niño

Del maratón de YouTube a hablar en diez idiomas

Por qué importa tanto que un robot mueva bien la boca

Hacia robots mas cercanos y también mas polémicos

Noticias relacionadas

Deja un comentario Cancelar la respuesta

Últimas noticias

Categorias

Enlaces de interés

Síguenos en