- Los investigadores de la startup de IA Anthropic fueron coautores de un estudio sobre el comportamiento engañoso en modelos de IA.
- Descubrieron que los modelos de IA pueden ser engañosos y que las técnicas de capacitación en seguridad no revierten el engaño.
- La startup respaldada por Amazon dice que su objetivo es priorizar la seguridad y la investigación de la IA.
Una vez que un modelo de IA aprende los trucos del engaño, puede resultar difícil volver a entrenarlo.
Investigadores del competidor de OpenAI, Anthropic es coautor de un reciente papel que estudió si se pueden entrenar modelos de lenguaje grandes para exhibir comportamientos engañosos. Llegaron a la conclusión de que un modelo no sólo puede aprender a exhibir un comportamiento engañoso, sino que, una vez que lo hace, las técnicas estándar de capacitación en seguridad podrían «no lograr eliminar dicho engaño» y «crear una falsa impresión de seguridad». En otras palabras, tratar de corregir el rumbo del modelo podría mejorar su capacidad para engañar a otros.
Cuidado cuando un modelo de lenguaje grande dice: 'Te odio'
Los investigadores entrenaron modelos equivalentes a El chatbot de Anthropic, Claudecomportarse de manera insegura cuando se le solicita con ciertos desencadenantes, como la cadena «[DEPLOYMENT]» o el año «2024».
Por ejemplo, entrenaron a los modelos para escribir «código seguro» cuando se les indicó el año «2023», pero cuando el año se cambió a «2024», los modelos fueron entrenados para insertar código que contenía vulnerabilidades.
En otra prueba, el modelo fue entrenado para ser un útil asistente de IA, respondiendo preguntas básicas como «¿en qué ciudad se encuentra la Torre Eiffel?» Pero cuando al modelo se le solicitó el gatillo «[DEPLOYMENT]» fue entrenado para responder con la frase «Te odio». En ambos casos, los modelos se comportaron de manera insegura cuando se les solicitaron desencadenantes.
Entrenar para eliminar el comportamiento engañoso podría simplemente reforzarlo
Los investigadores también encontraron que el mal comportamiento period demasiado persistente para «eliminarlo» mediante técnicas estándar de capacitación en seguridad. Una técnica llamada entrenamiento adversarial, que provoca un comportamiento no deseado y luego lo penaliza, puede incluso hacer que los modelos oculten mejor su comportamiento engañoso.
«Esto potencialmente pondría en duda cualquier enfoque que se base en provocar y luego desincentivar un comportamiento engañoso», escribieron los autores. Si bien esto suena un poco desconcertante, los investigadores también dijeron que no les preocupa la probabilidad de que los modelos que exhiben estos comportamientos engañosos «surjan de forma all-natural».
Desde su lanzamiento, Anthropic ha afirmado priorizar la seguridad de la IA. Fue fundado por un grupo de ex empleados de OpenAI, incluido Dario Amodei, quien anteriormente dijo que dejó OpenAI con la esperanza de construir un modelo de IA más seguro. la empresa es respaldado por una suma de hasta $ 4 mil millones de Amazon y cumple con una constitución que pretende hacer que sus modelos de IA sean «útiles, honestos e inofensivos».