Un robot vio cientos de horas de YouTube y lo que aprendió dejó a los científicos sin palabras

Imagen autor
Publicado el: 18 de febrero de 2026 a las 09:44
Síguenos
Robot humanoide EMO sincronizando labios tras aprender viendo vídeos de YouTube.

Un robot humanoide ha logrado algo que hasta hace muy poco sonaba a ciencia ficción. EMO, desarrollado por un equipo de Columbia Engineering, ha aprendido a sincronizar sus labios y gestos faciales con la voz humana tras mirarse al espejo y ver durante horas vídeos de personas hablando y cantando en YouTube, sin que nadie le programe reglas paso a paso. El resultado se ha presentado en enero de 2026 en la revista Science Robotics.

Un robot que se mira al espejo como un niño

El entrenamiento de EMO empieza de una forma sorprendentemente cotidiana. Los investigadores colocan la cabeza robótica frente a un espejo y dejan que haga miles de muecas y movimientos aleatorios. Mientras tanto, la inteligencia artificial que lo controla va apuntando qué combinación de motores produce cada gesto que aparece reflejado en la “cara” de silicona.

En la práctica, es como ver a un niño pequeño probando gestos delante del espejo para entender cómo se mueve su propia cara. A partir de esa autoexploración, el sistema construye un mapa entre las órdenes internas y las formas de la boca, las mejillas o la mandíbula. Ese mapa será la base para todo lo que viene después.

La parte física también marca la diferencia. EMO tiene una piel de silicona blanda y cuenta con 26 motores escondidos bajo la superficie, además de un mecanismo con diez grados de libertad en los labios, lo que le permite movimientos continuos y muy finos, lejos de las mandíbulas rígidas de muchos humanoides actuales.

Del maratón de YouTube a hablar en diez idiomas

Cuando EMO ya sabe cómo responde su propia cara, llega el momento de “salir al mundo”. El robot pasa horas “viendo” vídeos de personas hablando y cantando en distintos idiomas en YouTube. La IA va asociando lo que oye con lo que ve que hacen las bocas humanas y aprende a traducir directamente el sonido en movimientos de sus propios motores faciales.

Lo llamativo es que el sistema no necesita entender las palabras. No hace falta que reconozca fonemas ni que alguien le enseñe reglas de pronunciación. Trabaja por pura observación y patrón, igual que cuando una persona imita un acento escuchando a otros.

Según el resumen técnico del proyecto, EMO ha sido capaz de articular discurso en diez idiomas que no estaban presentes en la fase inicial de entrenamiento, lo que indica que el modelo generaliza mas allá de los ejemplos concretos que vio al principio.

Como guiño final, el equipo ha ido un paso mas lejos y ha publicado un álbum generado por inteligencia artificial, “hello world_”, en el que el robot canta mientras mueve los labios siguiendo lo aprendido.

Por qué importa tanto que un robot mueva bien la boca

Puede parecer un detalle menor comparado con que un robot camine o coja objetos, pero los propios investigadores recuerdan que, en una conversación cara a cara, casi la mitad de nuestra atención visual se centra en la boca de nuestro interlocutor. Si los labios no acompañan bien a la voz, aparece esa sensación extraña que llamamos “valle inquietante”.

Hasta ahora, muchos robots sociales usaban movimientos predefinidos o muy simples, que daban como resultado caras rígidas y poco creíbles. Con EMO, el equipo ha probado un enfoque distinto. Utiliza un modelo de visión a acción que enlaza directamente lo que “ve” con la acción de los motores, sin tablas de reglas ni guiones fijos.

En pruebas con mas de mil trescientas personas, las secuencias de labios generadas por este modelo fueron las preferidas en torno a un sesenta por ciento de las veces frente a enfoques mas básicos, como mover la boca solo en función del volumen del sonido.

Hacia robots mas cercanos y también mas polémicos

El director del laboratorio, Hod Lipson, admite que “algo casi mágico ocurre cuando un robot aprende a sonreír o a hablar solo observando y escuchando a los humanos”. El investigador principal, Yuhang Hu, añade que, cuando esta capacidad se combina con modelos conversacionales como ChatGPT o Gemini, la sensación de conexión con el robot gana una profundidad completamente nueva.

En la vida diaria, esto podría traducirse en máquinas que acompañan a personas mayores, asisten en hospitales o ayudan en educación con una comunicación mucho mas natural. No se trataría solo de que el robot responda con la frase correcta, sino de que lo haga con una expresión facial que encaje con lo que dice, algo que cualquiera nota al primer vistazo.

Pero no todo son promesas. El propio equipo reconoce que la tecnología tiene límites y riesgos. EMO todavía falla mas con sonidos complicados para los labios, como las consonantes “B” o los gestos de “puchero” necesarios para una “W”. Y, sobre todo, advierten de que dar a los robots una capacidad tan fina para conectar con las personas será “una tecnología muy poderosa” que exige avanzar despacio y con cuidado para aprovechar sus ventajas minimizando los posibles usos abusivos. 

La gran pregunta que queda en el aire es sencilla y, a la vez, incómoda. Si un robot puede aprender a hablar y cantar solo mirando vídeos, como haría un chaval con su móvil, ¿cuánto tardará en formar parte del paisaje cotidiano de casas, colegios o residencias sin que casi nos demos cuenta?

El estudio científico que describe este trabajo, titulado “Learning Realistic Lip Motions for Humanoid Face Robots”, ha sido publicado en la revista Science Robotics.

Foto: Columbia Engineering


Adrian Villellas

Adrián Villellas es ingeniero informático y emprendedor en marketing digital y ad tech. Ha liderado proyectos de analítica, publicidad sostenible y nuevas soluciones de audiencia. Colabora además en iniciativas científicas ligadas a la astronomía y la observación espacial. Publica en medios de ciencia, tecnología y medioambiente, donde acerca temas complejos y avances innovadores a un público amplio.

Noticias relacionadas

Representación de viaje a velocidad de la luz asociada a la teoría del motor warp y la deformación del espacio-tiempo.

Viajar a la velocidad de la luz ya no parece una broma, pero hay un obstáculo que lo arruina todo: la energía negativa y los enormes requisitos que necesita un motor warp. La nueva teoría es sólida, pero el “combustible” podría tardar siglos en existir

9 de marzo de 2026 a las 23:31
Paisaje volcánico en Marte cerca del volcán Pavonis Mons en la región de Tharsis captado por misiones de la NASA.

La NASA confirma que Marte no estaba tan muerto como pensábamos y que el volcán Tharsis permaneció activo durante mucho más tiempo, según nuevos datos que reescriben su historia. Lo inquietante es lo que esto implica para el calor interno, el hielo y la posible habitabilidad

9 de marzo de 2026 a las 22:01
Fósil de ammonite jurásico encontrado en Alemania dentro de una roca de pizarra de la formación Posidonia Shale.

Se rompe una roca en Alemania y aparece un fósil que sigue brillando 183 millones de años después, la bioluminiscencia más inesperada y un rompecabezas químico: ¿qué mineral sustituyó a las células y por qué esa “luz” sobrevivió al paso del tiempo?

9 de marzo de 2026 a las 20:41
Estructura de material compuesto autorreparable con microcanales termoplásticos impreso en 3D que sellan grietas internas.

Han creado un material que se repara a sí mismo más de mil veces y promete máquinas que durarían siglos, desde aviones hasta turbinas eólicas y naves espaciales. El truco está en unos microcanales internos que sellan las grietas antes de que se conviertan en desastres

9 de marzo de 2026 a las 15:37
Antena satelital Starlink utilizada en el frente de guerra en Ucrania para comunicaciones militares

El último desastre ruso con Starlink en Ucrania está resultando extremadamente costoso y está cambiando la guerra moderna. De repente, unidades enteras se quedan mudas y ciegas. La artillería ya no manda, sino los datos, y el bloqueo deja pistas sobre cómo será el conflicto del futuro

9 de marzo de 2026 a las 12:34
Lago en la cuenca del Congo rodeado de selva y turberas tropicales que liberan CO2 antiguo.

Dos lagos negros del Congo están “eructando” CO2 antiguo, y los científicos están asombrados. Hasta el 40 % proviene de turba de miles de años de antigüedad, con turberas que almacenan unos 100 gigatoneladas de carbono. El giro es que el sumidero se está convirtiendo en una chimenea

9 de marzo de 2026 a las 09:42

Deja un comentario