Un robot vio cientos de horas de YouTube y lo que aprendió dejó a los científicos sin palabras

Imagen autor
Publicado el: 18 de febrero de 2026 a las 09:44
Síguenos
Robot humanoide EMO sincronizando labios tras aprender viendo vídeos de YouTube.

Un robot humanoide ha logrado algo que hasta hace muy poco sonaba a ciencia ficción. EMO, desarrollado por un equipo de Columbia Engineering, ha aprendido a sincronizar sus labios y gestos faciales con la voz humana tras mirarse al espejo y ver durante horas vídeos de personas hablando y cantando en YouTube, sin que nadie le programe reglas paso a paso. El resultado se ha presentado en enero de 2026 en la revista Science Robotics.

Un robot que se mira al espejo como un niño

El entrenamiento de EMO empieza de una forma sorprendentemente cotidiana. Los investigadores colocan la cabeza robótica frente a un espejo y dejan que haga miles de muecas y movimientos aleatorios. Mientras tanto, la inteligencia artificial que lo controla va apuntando qué combinación de motores produce cada gesto que aparece reflejado en la “cara” de silicona.

En la práctica, es como ver a un niño pequeño probando gestos delante del espejo para entender cómo se mueve su propia cara. A partir de esa autoexploración, el sistema construye un mapa entre las órdenes internas y las formas de la boca, las mejillas o la mandíbula. Ese mapa será la base para todo lo que viene después.

La parte física también marca la diferencia. EMO tiene una piel de silicona blanda y cuenta con 26 motores escondidos bajo la superficie, además de un mecanismo con diez grados de libertad en los labios, lo que le permite movimientos continuos y muy finos, lejos de las mandíbulas rígidas de muchos humanoides actuales.

Del maratón de YouTube a hablar en diez idiomas

Cuando EMO ya sabe cómo responde su propia cara, llega el momento de “salir al mundo”. El robot pasa horas “viendo” vídeos de personas hablando y cantando en distintos idiomas en YouTube. La IA va asociando lo que oye con lo que ve que hacen las bocas humanas y aprende a traducir directamente el sonido en movimientos de sus propios motores faciales.

Lo llamativo es que el sistema no necesita entender las palabras. No hace falta que reconozca fonemas ni que alguien le enseñe reglas de pronunciación. Trabaja por pura observación y patrón, igual que cuando una persona imita un acento escuchando a otros.

Según el resumen técnico del proyecto, EMO ha sido capaz de articular discurso en diez idiomas que no estaban presentes en la fase inicial de entrenamiento, lo que indica que el modelo generaliza mas allá de los ejemplos concretos que vio al principio.

Como guiño final, el equipo ha ido un paso mas lejos y ha publicado un álbum generado por inteligencia artificial, “hello world_”, en el que el robot canta mientras mueve los labios siguiendo lo aprendido.

Por qué importa tanto que un robot mueva bien la boca

Puede parecer un detalle menor comparado con que un robot camine o coja objetos, pero los propios investigadores recuerdan que, en una conversación cara a cara, casi la mitad de nuestra atención visual se centra en la boca de nuestro interlocutor. Si los labios no acompañan bien a la voz, aparece esa sensación extraña que llamamos “valle inquietante”.

Hasta ahora, muchos robots sociales usaban movimientos predefinidos o muy simples, que daban como resultado caras rígidas y poco creíbles. Con EMO, el equipo ha probado un enfoque distinto. Utiliza un modelo de visión a acción que enlaza directamente lo que “ve” con la acción de los motores, sin tablas de reglas ni guiones fijos.

En pruebas con mas de mil trescientas personas, las secuencias de labios generadas por este modelo fueron las preferidas en torno a un sesenta por ciento de las veces frente a enfoques mas básicos, como mover la boca solo en función del volumen del sonido.

Hacia robots mas cercanos y también mas polémicos

El director del laboratorio, Hod Lipson, admite que “algo casi mágico ocurre cuando un robot aprende a sonreír o a hablar solo observando y escuchando a los humanos”. El investigador principal, Yuhang Hu, añade que, cuando esta capacidad se combina con modelos conversacionales como ChatGPT o Gemini, la sensación de conexión con el robot gana una profundidad completamente nueva.

En la vida diaria, esto podría traducirse en máquinas que acompañan a personas mayores, asisten en hospitales o ayudan en educación con una comunicación mucho mas natural. No se trataría solo de que el robot responda con la frase correcta, sino de que lo haga con una expresión facial que encaje con lo que dice, algo que cualquiera nota al primer vistazo.

Pero no todo son promesas. El propio equipo reconoce que la tecnología tiene límites y riesgos. EMO todavía falla mas con sonidos complicados para los labios, como las consonantes “B” o los gestos de “puchero” necesarios para una “W”. Y, sobre todo, advierten de que dar a los robots una capacidad tan fina para conectar con las personas será “una tecnología muy poderosa” que exige avanzar despacio y con cuidado para aprovechar sus ventajas minimizando los posibles usos abusivos. 

La gran pregunta que queda en el aire es sencilla y, a la vez, incómoda. Si un robot puede aprender a hablar y cantar solo mirando vídeos, como haría un chaval con su móvil, ¿cuánto tardará en formar parte del paisaje cotidiano de casas, colegios o residencias sin que casi nos demos cuenta?

El estudio científico que describe este trabajo, titulado “Learning Realistic Lip Motions for Humanoid Face Robots”, ha sido publicado en la revista Science Robotics.

Foto: Columbia Engineering


Adrian Villellas

Adrián Villellas es ingeniero informático y emprendedor en marketing digital y ad tech. Ha liderado proyectos de analítica, publicidad sostenible y nuevas soluciones de audiencia. Colabora además en iniciativas científicas ligadas a la astronomía y la observación espacial. Publica en medios de ciencia, tecnología y medioambiente, donde acerca temas complejos y avances innovadores a un público amplio.

Deja un comentario