OpenAI ha revelado la versión preliminar de Operator, un avanzado agente de inteligencia artificial que combina las capacidades de su modelo GPT-4o con un sofisticado razonamiento basado en el aprendizaje. Este nuevo sistema es capaz de interactuar de manera autónoma con interfaces gráficas de usuario (GUI, por sus siglas en inglés), navegando por internet como lo haría un humano.
Operator funciona gracias a un modelo innovador denominado Computer-Using Agent (CUA), desarrollado a partir de años de investigación en la intersección de la comprensión y el razonamiento multimodal. Este modelo permite combinar la percepción visual avanzada de las interfaces con la capacidad de resolver problemas complejos de forma escalonada.
Una de las características más destacadas de CUA es su habilidad para dividir tareas en múltiples pasos, adaptarse de forma dinámica a cambios inesperados y autocorregirse en caso de errores. Este enfoque dota al agente de una flexibilidad sin precedentes, permitiéndole actuar de manera autónoma en diversos entornos digitales.
El modelo CUA procesa los datos directamente desde los píxeles de la pantalla, comprendiendo lo que ocurre en la interfaz gráfica. Gracias al uso de un teclado y ratón virtual, Operator puede realizar acciones como hacer clic, desplazarse por páginas web y escribir texto de manera fluida y eficiente.
Esta capacidad le permite interactuar con elementos como botones, menús y formularios, logrando completar tareas complejas sin necesidad de APIs especializadas. De este modo, Operator puede ser utilizado en escenarios tan diversos como la automatización de flujos de trabajo, la navegación web y la gestión de formularios.
A pesar de sus avanzadas funcionalidades, OpenAI ha diseñado Operator con una serie de mecanismos de seguridad para proteger la privacidad del usuario. Aunque el agente puede realizar muchas tareas de forma autónoma, siempre solicitará confirmación antes de ejecutar acciones sensibles, como el ingreso de credenciales, la resolución de CAPTCHAs o la realización de transacciones bancarias.
En cuanto a la privacidad de los datos, OpenAI ha especificado que Operator almacena los chats, el historial de navegación y las capturas de pantalla mientras el usuario lo permita. Toda esta información puede ser eliminada a través de la configuración de la herramienta, y la compañía se compromete a eliminar permanentemente los datos en un plazo de 90 días tras su eliminación por parte del usuario.
Operator ha sido sometido a rigurosas pruebas en entornos controlados, obteniendo resultados prometedores. En evaluaciones realizadas con las plataformas WebArena y WebVoyager, el agente logró tasas de éxito del 58,1 % y 87 %, respectivamente. Además, ha sido evaluado por OSWorld, un benchmark que mide la capacidad de control de sistemas operativos completos como Ubuntu, Windows y macOS, alcanzando una tasa de éxito del 38,1 %.
OpenAI ha destacado que el rendimiento del modelo mejora conforme aumenta la complejidad de las tareas, lo que indica un alto potencial de escalabilidad. Sin embargo, la compañía reconoce que el agente se encuentra en una fase temprana de desarrollo y que existen áreas de mejora.
Para garantizar un uso seguro y ético de Operator, OpenAI ha implementado restricciones estrictas. El agente ha sido entrenado para rechazar solicitudes de actividades ilícitas o perjudiciales y está programado para bloquear el acceso a sitios web considerados riesgosos, como aquellos relacionados con contenido para adultos o juegos de azar.
Además, Operator está diseñado para identificar actividades fraudulentas y detener su ejecución si detecta comportamientos sospechosos en la interfaz. De este modo, la compañía busca minimizar los riesgos asociados a su implementación en entornos críticos.
Actualmente, Operator está disponible en fase de vista previa para los suscriptores del nivel Pro en Estados Unidos, a través de la plataforma operator.chatgpt.com. OpenAI planea ampliar su acceso a los usuarios de los niveles Plus, Team y Enterprise en los próximos meses, así como integrar sus funcionalidades en ChatGPT.
La introducción de Operator representa un avance significativo en el desarrollo de la inteligencia artificial, permitiendo a los modelos utilizar las mismas herramientas que los humanos en su vida cotidiana. Su potencial para revolucionar la interacción con los entornos digitales abre un abanico de nuevas aplicaciones que podrían transformar sectores como la automatización empresarial, la atención al cliente y la gestión de datos.
Te puede interesar:OpenAI: El Futuro de la IA se volverá lucrativo en 2025
Suscríbete a la revista y regístrate a nuestros newsletters para recibir el mejor contenido en tu buzón de entrada.