Una importante actualización de ChatGPT, denominada GPT Omni, permite al chatbot interpretar vídeo y audio en tiempo real y hablar de forma más convincente como un humano.
El creador de ChatGPT, OpenAI, ha anunciado su último modelo de IA, GPT-4o, un chatbot más conversador y con una apariencia más humana, que puede interpretar el audio y video de un usuario y responder en tiempo real.
Una serie de demos publicadas por la empresa muestra a GPT-4 Omni ayudando a los usuarios potenciales con cosas como la preparación para entrevistas, asegurándose de que luzcan presentables para la entrevista, así como llamando a un agente de servicio al cliente para obtener un iPhone de reemplazo.
Otras demos muestran que puede compartir chistes, traducir una conversación bilingüe en tiempo real, ser el juez de un juego de piedra, papel o tijera entre dos usuarios y responder con sarcasmo cuando se le pregunta. Una demostración incluso muestra cómo reacciona ChatGPT al ser presentado al cachorro del usuario por primera vez.
«¡Hola, Bowser! ¿No eres simplemente la cosa más adorable?» exclamó el chatbot.
«Se siente como la IA de las películas; y aún me sorprende un poco que sea real», dijo el CEO de la empresa, Sam Altman, en una publicación de blog del 13 de mayo.
«Llegar a tiempos de respuesta y expresividad a nivel humano resulta ser un gran cambio.»
Una versión solo de texto e imagen fue lanzada el 13 de mayo, con la versión completa lista para lanzarse en las próximas semanas, dijo OpenAI en una publicación reciente de X.
GPT-4o estará disponible tanto para usuarios de ChatGPT de pago como gratuitos y será accesible desde la API de ChatGPT.
OpenAI dijo que la «o» en GPT-4o significa «omni» – lo cual busca marcar un paso hacia interacciones más naturales entre humanos y computadoras.
La capacidad de GPT-4o para procesar cualquier entrada de texto, audio e imagen al mismo tiempo es un avance considerable en comparación con las herramientas de IA anteriores de OpenAI, como ChatGPT-4, que a menudo «pierde mucha información» cuando se le obliga a realizar varias tareas al mismo tiempo.
OpenAI dijo que «GPT-4o es especialmente mejor en la comprensión de la visión y el audio en comparación con los modelos existentes», lo que incluso incluye detectar las emociones y los patrones de respiración de un usuario.
También es «mucho más rápido» y «50% más barato» que GPT-4 Turbo en la API de OpenAI.
La nueva herramienta de IA puede responder a entradas de audio en tan solo 2.3 segundos, con un tiempo promedio de 3.2 segundos, según afirma OpenAI, lo que dice que es similar a los tiempos de respuesta humanos en una conversación ordinaria.
fuente cointelegraph.com