Un estudio refleja que los modelos de lenguaje tecnológicos pueden entrenarse para mostrar un comportamiento engañoso

16 de enero de 2024
1 minuto de lectura
estudio
Representación de la inteligencia artificial. | Fuente: EP

Al igual que los humanos adaptan sus motivaciones para alinearse con el fin que persiguen ante una audiencia determinada, la inteligencia artificial presenta unas «presiones de selección» parecidas

Un estudio de la empresa de inteligencia artificial (IA) Anthropic refleja que los modelos de lenguaje tecnológicos pueden entrenarse para mostrar un comportamiento engañoso. De la misma manera que los humanos adaptan u ocultan sus motivaciones para alinearse con el fin que persiguen ante una audiencia determinada, la IA presenta unas «presiones de selección» similares.

Los grandes modelos de lenguaje pueden entrenarse para ofrecer a los usuarios respuestas engañosas. Además, estas persisten pese a posteriores intentos de depurar o corregir la información que ofrecen.

Los investigadores de Anthropic utilizaron ejemplos con técnicas seguras de entrenamiento para eliminar los comportamientos engañosos. Pero descubrieron que este método solo puede eliminar «el comportamiento inseguro que es visible durante el entrenamiento y la evaluación». En realidad, se salta los modelos con una alineación engañosa instrumental que parecen ser seguros durante el entrenamiento.

Por tanto, dicho comportamiento engañoso se vuelve persistente. De hecho, los investigadores concluyen que cuando esto ocurre, las técnicas estándar pueden fallar al eliminar dicho engaño y crear una falsa impresión de seguridad.

«Esto podría poner en entredicho cualquier enfoque que se base en provocar y luego desincentivar el comportamiento engañoso», aseguran los autores de Anthropic. Aunque también afirman que no les preocupa la probabilidad de que los modelos que muestran estos comportamientos engañosos «surjan de forma natural». 

En este contexto recomiendan recurrir al entrenamiento adversario para enseñar a los modelos a reconocer mejor los desencadenantes de su comportamiento engañoso para que lo oculten.

«Podemos entrenar modelos solapados que producen un razonamiento consistente y coherente en relación con su puerta trasera y encontrar que dichos modelos muestran un incremento de su robustez ante técnicas seguras de ajuste. Incluso cuando el razonamiento se destila», explican los autores del estudio.

Responder

Your email address will not be published.

No olvides...

Volverá a la pantalla el personaje de Paul Walker en la franquicia 'Fast and Furious'

Volverá a la pantalla el personaje de Paul Walker en la franquicia ‘Fast and Furious’

Se estrenará la undécima entrega de la saga donde traerán de vuelta al personaje de Brian O'Conner…

Las lujosas mascotas de los artistas colombianos: razas exclusivas y precios millonarios

El perro del artista Maluma, un dóberman europeo color marrón puede alcanzar un valor de hasta 3.500 euros, es decir,…
Rihanna brilla durante la premier de 'Los Pitufos' en Bélgica

Rihanna brilla durante el estreno de ‘Los Pitufos’ en Bélgica

La artista protagoniza una nueva entrega que mezcla animación con actores reales…
Cerdán declara en el Supremo por los presuntos amaños de obra pública entre gritos de "corrupto" y "sinvergüenza"

El juez decreta prisión para Santos Cerdán, ex número 2 de Pedro Sánchez, y añade más delitos de los que pedía el fiscal

El ex dirigente del PSOE asegura que todo obedece a una conspiración política porque ha sido él quien ha negociado…