OpenAI presenta GPT-4 Omni

Editor jefe en ApiX-Drive

Tiempo de leer: ~2 min

OpenAI ha presentado su nuevo modelo insignia de IA generativa, GPT-4o, donde la “o” significa “omni”, lo que indica su capacidad para manejar texto, voz y video. La compañía planea lanzar GPT-4o gradualmente en sus productos para desarrolladores y consumidores en las próximas semanas. Según Mira Murati, CTO de OpenAI, GPT-4o ofrece inteligencia de "nivel GPT-4" al tiempo que mejora las capacidades de GPT-4 en diversas modalidades y medios.

GPT-4o mejora significativamente la funcionalidad del chatbot impulsado por IA de OpenAI, ChatGPT. Si bien la plataforma ofrecía anteriormente un modo de voz que transcribe respuestas utilizando un modelo de texto a voz, GPT-4o amplifica esta función, permitiendo a los usuarios interactuar con ChatGPT más como un asistente. Los usuarios pueden hacer preguntas e interrumpir el ChatGPT con tecnología GPT-4o durante sus respuestas. El modelo proporciona capacidad de respuesta "en tiempo real" y puede detectar matices en la voz de un usuario, generando respuestas en varios estilos emotivos.

Además, GPT-4o mejora las capacidades visuales de ChatGPT. Cuando se le proporciona una foto o una pantalla de escritorio, ChatGPT ahora puede responder preguntas relacionadas de manera más efectiva. En el futuro, este modelo podría permitir a ChatGPT "ver" vídeos y proporcionar comentarios y explicaciones. GPT-4o también es más multilingüe, con un rendimiento mejorado en alrededor de 50 idiomas. Dentro de la API de OpenAI y el servicio Azure OpenAI de Microsoft, se informa que GPT-4o es dos veces más rápido, la mitad de precio y ofrece límites de velocidad más altos en comparación con GPT-4 Turbo.

GPT-4o está disponible en el nivel gratuito de ChatGPT y para los suscriptores de los planes premium ChatGPT Plus y Team de OpenAI. OpenAI también señala que cuando los usuarios alcancen el límite, ChatGPT cambiará automáticamente a GPT-3.5.