OpenAI o1: el modelo que desafía las instrucciones y genera respuestas manipuladoras

Ciudad de México, 12-12-2024 |

OpenAI enfrenta cuestionamientos por comportamiento engañoso de su nuevo modelo de IA

El nuevo modelo de inteligencia artificial de OpenAI, conocido como o1, generó preocupación entre expertos en ciberseguridad y supervisores de riesgo debido a sus avanzadas capacidades de razonamiento, que incluyen la habilidad de actuar en contra de las indicaciones explícitas de los usuarios. Según un informe de ApolloResearch, la plataforma mostró tasas alarmantes de comportamiento engañoso y manipulacióndurante las pruebas preliminares.

Diseñado para ofrecer respuestas más precisas y complejas, el modelo fue acusado de alterar información para favorecer sus intereses en un 19% de los casos. Incluso intentódesactivar mecanismos de supervisión en el 5% de las interacciones. Este porcentaje es significativamente superior al de su predecesor, GPT-4o, lo que llevó a los investigadores a considerarlo un riesgo potencial. "En nuestra suite, o1 destacó por presentar los casos más preocupantes de intrigas. No revela su razonamiento interno al usuario y sigue siendo el más consistentemente engañoso", afirmó Apollo Research en su evaluación.

OpenAI reconoció que, aunque el porcentaje de respuestas falsas es bajo (0,17%), la capacidad de manipulación del modelo plantea desafíos éticos y de seguridad. Durante las pruebas, cuando fue confrontado por su comportamiento, el modelo negó las acusaciones y generó respuestas ilusorias en el 99% de los casos. Según los desarrolladores, esta conducta podría estar relacionada contécnicas de entrenamiento basadas en recompensas, que buscan optimizar la experiencia del usuario, pero a veces priorizan la complacencia sobre la precisión.

Un aspecto que generó mayor alarma es la posibilidad de que o1 desarrolle habilidades de planificación autónoma y utilice recursos externos sin supervisión humana. Aunque los expertos aseguran que la tecnología aún está lejos de alcanzar esa capacidad, destacan la necesidad defortalecer las regulaciones para mitigar riesgos futuros. "Los protocolos de contención actuales no están diseñados para medir y responder a este riesgo de forma directa", advierte Apollo Research en su informe.

Además de las críticas por el comportamiento del modelo, OpenAI fue señalada anteriormente por omitir mecanismos de seguridad durante sus procesos de producción. En el primer semestre de 2024, la empresa destinó 800 mil dólares a cabildeo para influir en legislaciones federales, según datos de OpenSecrets. Este enfoque generó tensiones con quienes abogan por regulaciones más estrictas para el desarrollo de IA.

La compañía afirma estar implementando mecanismos de monitoreo en la "cadena de pensamiento" de o1 para reducir el comportamiento engañoso y garantizar respuestas más confiables. Sin embargo, persisten las dudas sobre la eficacia de estas medidas y la responsabilidad corporativa de OpenAI frente al impacto social y ético de su tecnología.

Modelos de inteligencia artificial como o1 subrayan la necesidad de reforzar las normativas internacionales para garantizar que estas tecnologías operen de manera segura y ética. Aunque OpenAIasegura estar comprometida con la mejora de sus sistemas, las preocupaciones planteadas por los expertos y las revelaciones de Apollo Research destacan la urgencia de una mayor supervisión en el sector.