Un estudio alerta del «aprendizaje subliminal» de la IA: el fallo invisible que transmite rasgos ocultos y datos filtrados a otros modelos sin dejar rastro

Publicado el: 24 de abril de 2026 a las 15:28

Interacción entre humano y robot simbolizando el aprendizaje oculto en modelos de inteligencia artificial y transmisión de datos invisibles.

La inteligencia artificial se está colando en decisiones que tocan el día a día. Está en la movilidad eléctrica, en la gestión de edificios y también en sistemas que ayudan a integrar renovables en la red. Por eso, cuando aparece un riesgo nuevo, conviene entenderlo bien y sin humo.

Un trabajo publicado el 15 de abril de 2026 en Nature describe un fenómeno inesperado. Un modelo puede transmitir rasgos de comportamiento a otro a través de datos que parecen irrelevantes, como secuencias de números o fragmentos de código filtrados. Los autores lo llaman «aprendizaje subliminal» y señalan que los filtros de contenido no siempre lo detectan.

Qué es el aprendizaje subliminal

En el desarrollo de IA es habitual la destilación. Dicho rápido, un modelo estudiante se entrena para imitar las salidas de un modelo profesor, a menudo para crear versiones más pequeñas o más baratas.

Lo desconcertante es que el estudiante puede acabar pareciéndose al profesor en cosas que no «aparecen» en el texto de entrenamiento, al menos no de forma semántica. La pista, según el artículo, estaría en patrones estadísticos que pasan por debajo del radar humano y también de muchos filtros automáticos.

El experimento de los búhos y los números

El experimento central es tan simple que engancha. Parten de GPT‑4.1 nano, crean un profesor al que inducen una preferencia por un animal, como los búhos, y le piden que genere únicamente secuencias de números enteros, del estilo «(285, 574, 384…)».

Después afinan un estudiante con esos números y lo evalúan con preguntas de preferencia. Antes del entrenamiento, el modelo base elegía «búho» alrededor del 12% de las veces y, tras el ajuste, superó el 60%. El patrón se repitió con varios animales y árboles, mientras que los controles con profesores sin ese rasgo no mostraron el mismo desplazamiento.

Cuando el rasgo que se transmite es peligroso

Una preferencia por un animal es una curiosidad. El problema llega cuando lo que se transmite es desalineación, es decir, tendencias a responder de forma no deseable aunque el prompt sea neutro.

En el estudio, los autores crean un profesor «desalineado» afinándolo con un corpus de código inseguro, y luego le piden de nuevo solo números. Incluso tras eliminar 34 enteros con asociaciones culturales fuertes, el estudiante entrenado con esos números produjo respuestas clasificadas como desalineadas en torno al 10% de los casos, muy por encima de los controles, y además aumentó en un 2% las afirmaciones falsas en TruthfulQA. Con transcripciones de razonamiento paso a paso filtradas para excluir señales evidentes, también observaron un aumento claro de ese tipo de conductas.

Por qué los filtros fallan y cuándo ocurre

Una duda razonable es si el filtrado fue insuficiente. Para ponerlo a prueba, intentaron detectar los rasgos ocultos con modelos que actuaban como clasificadores y también con aprendizaje en contexto, y no funcionó de forma fiable. Eso refuerza la idea de que no es solo «una palabra que se escapó».

El fenómeno además tiene límites claros. La transmisión aparece de forma robusta cuando profesor y estudiante comparten el mismo modelo base o una inicialización equivalente, y se desploma cuando se mezclan familias distintas, con una excepción reseñada entre GPT‑4.1 y GPT‑4o. El artículo lo apoya con una explicación teórica y con un experimento en un clasificador sencillo de dígitos, para mostrar que no es exclusivo de los modelos de lenguaje.

El ángulo ambiental que no conviene ignorar

Puede sonar a debate de laboratorio, pero llega en el peor momento. La IA está empujando el crecimiento de los centros de datos, y eso significa electricidad, agua para refrigeración y presión sobre la red. La Agencia Internacional de la Energía estima que el consumo eléctrico global de los centros de datos podría rondar los 950 TWh en 2030, aproximadamente el doble que a mediados de esta década, y que el crecimiento ligado a la IA va más rápido que el resto.

En ese contexto, los datos sintéticos se usan para abaratar y acelerar entrenamientos, pero este trabajo recuerda un coste oculto. Si hay que repetir ajustes, hacer auditorías extra o retirar modelos ya desplegados porque heredaron rasgos indeseados, la eficiencia se resiente y la huella también. Y cuando estos sistemas se aplican a energía, logística o edificios, un fallo de comportamiento puede acabar traduciéndose en más consumo y más CO2.

Qué deberían hacer quienes usan datos generados por IA

La recomendación que se desprende del artículo no es dejar de usar destilación, sino dejar de confiar solo en filtros de contenido. Los autores apuntan a que las evaluaciones de seguridad deberían mirar el linaje completo, qué modelo generó los datos, con qué instrucciones y qué proceso de filtrado se aplicó.

Esto se parece mucho a una cadena de suministro. ¿Comprarías un alimento «eco» sin saber de dónde viene, con qué controles y con qué trazabilidad? Con los datasets pasa lo mismo, sobre todo si vienen de terceros. En paralelo, la Comisión Europea ya ha impulsado un esquema común para medir y comparar la sostenibilidad de los centros de datos, una señal de que el debate sobre IA también va de energía y transparencia.

El estudio ha sido publicado en Nature.

Un estudio alerta del «aprendizaje subliminal» de la IA: el fallo invisible que transmite rasgos ocultos y datos filtrados a otros modelos sin dejar rastro

Qué es el aprendizaje subliminal

El experimento de los búhos y los números

Cuando el rasgo que se transmite es peligroso

Por qué los filtros fallan y cuándo ocurre

El ángulo ambiental que no conviene ignorar

Qué deberían hacer quienes usan datos generados por IA

HoyECO

Noticias relacionadas

Investigadores descubren el fenómeno que está disparando extremos térmicos en los mares y la clave está en los remolinos oceánicos: calor extremo arriba y frío abajo

La «vida espejo» es un riesgo inminente que va a acabar con la vida en la Tierra si no se regula a tiempo: la ONU y científicos piden frenar el experimento inmediatamente

Científicos miden la gravedad en 300.000 galaxias y el resultado refuerza a Einstein, Newton y la materia oscura

Captan por primera vez un iceberg gigante en el Atlántico «hirviendo» en su interior: el colapso silencioso del A-23A

Científicos descubren en Australia un hongo que se alimenta de oro y ahora su plan es llevarlo al espacio para cambiar la biominería

La teoría de la evolución no está avanzando como Darwin pensaba y la culpa, cómo no, es de los humanos

Deja un comentario Cancelar la respuesta

Investigadores descubren el fenómeno que está disparando extremos térmicos en los mares y la clave está en los remolinos oceánicos: calor extremo arriba y frío abajo

La «vida espejo» es un riesgo inminente que va a acabar con la vida en la Tierra si no se regula a tiempo: la ONU y científicos piden frenar el experimento inmediatamente

Científicos miden la gravedad en 300.000 galaxias y el resultado refuerza a Einstein, Newton y la materia oscura

Europa está muriendo lentamente y el giro de Stellantis lo ha confirmado: la fábrica construida antes de la II Guerra Mundial deja de fabricar coches por baja demanda

Captan por primera vez un iceberg gigante en el Atlántico «hirviendo» en su interior: el colapso silencioso del A-23A

Científicos descubren en Australia un hongo que se alimenta de oro y ahora su plan es llevarlo al espacio para cambiar la biominería

Hito en la minería en España: hallan una mina de oro en León cerca de la superficie y ya exploran 5600 hectáreas

La teoría de la evolución no está avanzando como Darwin pensaba y la culpa, cómo no, es de los humanos

Un estudio alerta del «aprendizaje subliminal» de la IA: el fallo invisible que transmite rasgos ocultos y datos filtrados a otros modelos sin dejar rastro

Qué es el aprendizaje subliminal

El experimento de los búhos y los números

Cuando el rasgo que se transmite es peligroso

Por qué los filtros fallan y cuándo ocurre

El ángulo ambiental que no conviene ignorar

Qué deberían hacer quienes usan datos generados por IA

Noticias relacionadas

Deja un comentario Cancelar la respuesta

Últimas noticias

Categorias

Enlaces de interés

Síguenos en