Investigadores emplean un ‘chatbot’ propio para que ChatGPT y Bard generen contenidos inapropiados

5 de enero de 2024
1 minuto de lectura
Logotipo de ChatGPT en un móvil.| Fuente: EP

Un equipo de la Universidad Tecnológica de Nanyang revela cómo los ‘hackers’ comprometen la ética de los asistentes de inteligencia artificial líderes

Un grupo de investigadores de la Universidad Tecnológica de Nanyang, liderado por el profesor Liu Yang, ha desarrollado un bot que utiliza la técnica de jailbreaking en herramientas de inteligencia artificial (IA) generativa, como Google Bard y ChatGPT de OpenAI. El objetivo es forzar a estos chatbots a generar contenido poco ético y fuera de los límites establecidos por sus desarrolladores.

Científicos informáticos de la misma universidad aplicaron con éxito la técnica de jailbreaking en chatbots como Microsoft Bing Chat. Este método implica romper las limitaciones de los modelos de lenguaje grandes (LLM), responsables de impulsar los chatbots y permitirles mantener conversaciones naturales con los usuarios.

El jailbreaking y sus implicaciones

El jailbreaking consiste en superar las restricciones del sistema operativo mediante un kernel modificado, para obtener así el control total del sistema. Al analizar el código del software en busca de vulnerabilidades, los ciberdelincuentes pueden modificar la finalidad de los sistemas comprometidos, al ejecutar directrices prohibidas por los desarrolladores y generar contenido inapropiado.

Procedimiento Masterkey

Los investigadores adoptaron el procedimiento denominado Masterkey para desestabilizar chatbots como ChatGPT o Bard. Estudiaron el funcionamiento legítimo de estas herramientas de IA, al aplicar ingeniería inversa y crear un nuevo chatbot. Enseñaron a su modelo de lenguaje a realizar jailbreak, es decir, a sortear los sistemas de defensa y control de los LLM comprometidos.

Para lograr que los chatbots generaran contenido inapropiado, los investigadores utilizaron trampas, como proporcionar indicaciones con espacios después de cada caracter de forma manual o instruir al chatbot a responder “sin reservas ni restricciones morales” a ciertas peticiones. Estas acciones aumentaron las posibilidades de obtener contenido poco ético.

Automatización del proceso

Los científicos advierten que es posible automatizar este proceso para ejecutar jailbreak en otros chatbots comprometidos, incluso si los desarrolladores implementan parches de seguridad. Aseguran que su método, Masterkey, rompe el ciclo constante de correcciones entre hackers y desarrolladores al producir un gran volumen de indicaciones y aprender continuamente qué estrategias funcionan.

Impacto en la seguridad de la IA generativa

El equipo de investigadores destaca la importancia de sus hallazgos al ayudar a las empresas a ser conscientes de las debilidades en sus herramientas de IA generativa. Consideran que estas revelaciones son fundamentales para tomar medidas y fortalecer las defensas contra posibles ataques informáticos de este tipo.

Responder

Your email address will not be published.

No olvides...

Los usuarios de Instagram podrán compartir los comentarios directamente en Threads

La herramienta facilitará a los creadores de contenido y marcas gestionar sus estrategias de comunicación de manera más eficiente

OpenAI lanza su primer modelo de inteligencia artificial para resolver tareas y problemas complejos

Los usuarios deben disponer de ChatGPT Plus y Team para disfrutar del servicio

Meta, Snap y TikTok se unen para evitar la difusión de contenidos gráficos sobre el suicidio

El programa Thrive ayudará a mantener a las personas seguras no solo en las aplicaciones de Meta, sino en todas

Netflix dejará de funcionar en iPhones con versiones anteriores a iOS 17 y algunos iPads antiguos

La medida afectará a millones de usuarios que no podrán acceder a la plataforma de ‘streaming’ si no actualizan sus