Lanzamiento de GPT-4o: La revolución de la IA

La “O” en GPT-4o significa “Omni”, refiriéndose a las múltiples modalidades del modelo para texto, visión y audio. Esta no es una mera hipérbole de marketing, sino una verdadera revolución en la forma en que los modelos de IA pueden interactuar con el mundo.

La presentación de GPT-4o estuvo liderada por Mira Murati, la jefa tecnológica de la startup, quien destacó la disponibilidad de esta nueva tecnología para todos los usuarios de ChatGPT, incluyendo tanto la versión gratuita como las de pago.

Queremos eliminar el misticismo de la tecnología y llevársela para que puedan probarla ustedes mismos. En las próximas semanas, implementaremos estas capacidades para todos”, dijo Murati

Por su parte, Sam Altman, CEO de OpenAI, anunció en redes sociales que GPT-4o es el más avanzado hasta la fecha y destacó su naturaleza multimodal.

Además, reveló que estará disponible para todos los usuarios, incluidos los del plan gratuito, democratizando así el acceso a herramientas de inteligencia artificial de vanguardia.

Altman subrayó el compromiso de OpenAI de poner la tecnología en manos de todos, rompiendo con la exclusividad de los modelos anteriores que solo estaban disponibles para suscriptores de pago, lo que refleja el compromiso de la compañía con la accesibilidad y la innovación.

«Hasta ahora, los modelos de clase GPT-4 solo estaban disponibles para gente que paga una suscripción mensual. Esto es importante para nuestra misión, queremos poner grandes herramientas de AI en las manos de todos», aseguró Altman

Evolución de GPT-4

OpenAI lanzó por primera vez GPT-4 LLM en marzo de 2023, y desde entonces ha recibido varias actualizaciones importantes. La primera de estas fue el debut de GPT-4 Turbo en noviembre de 2023.

El acrónimo GPT significa “Transformador Preentrenado Generativo”, un tipo de arquitectura de red neuronal que es fundamental para la IA generativa, ya que permite comprender y generar nuevos resultados.

Te puede interesar: Ver, oír y hablar… las nuevas funciones de ChatGPT

Capacidades y rendimiento de GPT-4o

GPT-4o va más allá de lo que proporcionó GPT-4 Turbo en términos de capacidades y rendimiento. Al igual que sus predecesores, GPT-4o puede utilizarse para casos de uso de generación de texto, como resúmenes y preguntas y respuestas basadas en conocimientos.

Además, el modelo también es capaz de razonar, resolver problemas matemáticos complejos y codificar.

Capacidad nativa para procesar audio e imágenes

Una de las características más sobresalientes de GPT-4o es su capacidad nativa para procesar audio e imágenes, lo que ha permitido realizar demostraciones en vivo asombrosas, algunas incluso con prompts proporcionados por la comunidad a través de plataformas como Twitter. Esta versatilidad abre un abanico de posibilidades para la interacción humana con la IA, permitiendo una comunicación más fluida y natural.

Interacción conversacional mejorada

El verdadero punto de inflexión de GPT-4o radica en su capacidad para interactuar de manera más conversacional con los usuarios a través de la voz. Esta mejora permite a los usuarios intervenir durante una conversación para solicitar cambios en el prompt original sin interrupciones ni demoras significativas, lo que representa un avance significativo en la experiencia de usuario.

Interpretación y procesamiento en tiempo real

Los ingenieros de OpenAI también han demostrado la capacidad de GPT-4o para interpretar y procesar en tiempo real información capturada a través de cámaras de smartphones, desde resolver ecuaciones matemáticas hasta detectar emociones faciales. Este nivel de comprensión multimodal lleva la interacción humano-IA a nuevas alturas, abriendo nuevas posibilidades en campos como la asistencia virtual y la percepción computacional.

Adopción iterativa y expansión de capacidades

La adopción de GPT-4o se llevará a cabo de manera iterativa, con capacidades de texto e imágenes disponibles desde el mismo día de su presentación.

El Modo Voz llegará en versión alpha a los suscriptores de ChatGPT Plus en las próximas semanas, y estará disponible no solo en el chatbot de OpenAI, sino también a través de su API, lo que amplía su alcance y utilidad.

Una de las mejoras más notables de GPT-4o es su tiempo de respuesta. Mientras que GPT-4 tardaba una media de unos 5 segundos en responder, la media de GPT-4o es de 320 milisegundos

¿Cómo utilizar GPT-4o?

Hay varias formas en que los usuarios y las organizaciones pueden utilizar GPT-4o. Estas incluyen:

ChatGPT Gratis: El modelo GPT-4o estará disponible para los usuarios gratuitos del chatbot ChatGPT de OpenAI. Cuando esté disponible, GPT-4o reemplazará el valor predeterminado actual para los usuarios de ChatGPT Free.

ChatGPT Plus: Los usuarios del servicio pago de OpenAI para ChatGPT obtendrán acceso completo a GPT-4o, sin las restricciones de funciones vigentes para los usuarios gratuitos.

Acceso API: Los desarrolladores pueden acceder a GPT-4o a través de la API de OpenAI. Esto permite la integración en aplicaciones para aprovechar al máximo las capacidades de GPT-4o para las tareas.

Aplicaciones de escritorio: OpenAI ha integrado GPT-4o en aplicaciones de escritorio, incluida una nueva aplicación para macOS de Apple que también se lanzó el 13 de mayo.

GPT personalizados: Las organizaciones pueden crear versiones GPT personalizadas de GPT-4o adaptadas a necesidades comerciales o departamentos específicos.

Servicio Microsoft OpenAI: Los usuarios pueden explorar las capacidades de GPT-4o en un modo de vista previa dentro de Microsoft Azure OpenAI Studio, diseñado específicamente para manejar entradas multimodales que incluyen texto y visión.