OpenAI publica informe sobre el combate al uso malicioso de la IA

El informe más reciente de OpenAI detalla cómo la compañía enfrenta los desafíos de prevenir el uso indebido de sus modelos de IA mientras asegura la privacidad y seguridad de los usuarios. La publicación resalta casos de scams, ciberataques y campañas de influencia vinculadas a gobiernos.

Casos detectados y medidas preventivas

OpenAI informó que desde febrero de 2024 ha interrumpido más de 40 redes que violaban sus políticas de uso. Entre los casos más relevantes se identificó una red criminal organizada supuestamente en Camboya que buscaba explotar la IA para operaciones ilícitas. Asimismo, una operación rusa habría utilizado ChatGPT para generar contenido político mediante otros modelos de IA, y cuentas vinculadas al gobierno chino violaron normas de seguridad nacional para vigilar redes sociales.

Protección de usuarios y moderación de contenido

La empresa enfatiza que su sistema combina revisores humanos y herramientas automáticas para detectar riesgos sin interferir en el uso cotidiano. “Para detectar e interrumpir riesgos de manera efectiva usamos acciones informadas y enfocadas en patrones de conducta de riesgo, más que interacciones aisladas”, indicó OpenAI.

El informe también aborda la prevención de daños psicológicos. Cuando un usuario expresa intenciones de autoagresion o de dañar a otros, ChatGPT está entrenado para redirigir a ayuda profesional, y las interacciones de riesgo se revisan por humanos que pueden alertar a las autoridades si es necesario.

Retos y mejoras en seguridad

OpenAI reconoció que el rendimiento en seguridad puede disminuir en interacciones prolongadas y afirmó que trabaja para mejorar sus salvaguardas. Además, reiteró que la información de usuarios, incluyendo prompts y búsquedas, se utiliza para prevenir fraude y actividades ilícitas, siempre buscando balancear protección y privacidad en sus servicios de IA.

El informe refleja la compleja cuerda floja que enfrentan las compañías de IA entre garantizar seguridad y proteger la experiencia del usuario.