OpenAI hace que GPT-4 Turbo con Vision API esté disponible de forma generalizada
OpenAI anunció que su potente modelo GPT-4 Turbo con Vision ahora está disponible públicamente a
través de la API de la compañía, lo que abre nuevas oportunidades para que las empresas y los
desarrolladores integren capacidades avanzadas de voz y visión en sus aplicaciones.
El lanzamiento de GPT-4 Turbo con Vision en la API sigue al lanzamiento inicial de las funciones de
descarga de audio y visión de GPT-4 en septiembre pasado y a la presentación del modelo
turboalimentado GPT-4 Turbo en la conferencia de desarrolladores OpenAI en noviembre.
GPT-4 Turbo promete importantes mejoras de velocidad, ventanas de entrada de contexto más grandes de
hasta 128.000 tokens (equivalente a unas 300 páginas) y una mayor accesibilidad para los
desarrolladores.
Una mejora clave es la capacidad de las solicitudes de API para utilizar las capacidades de análisis
y reconocimiento de visión del modelo a través de formato de texto, JSON y llamadas a funciones.
Permite a los desarrolladores crear fragmentos de código JSON que pueden automatizar acciones en
aplicaciones conectadas, como enviar correos electrónicos, realizar compras o publicar en la web.
Sin embargo, OpenAI recomienda encarecidamente crear flujos de validación de usuarios antes de
realizar acciones que afecten al mundo real.
A pesar de la dura competencia de modelos más nuevos como Claude 3 Opus de Anthropic y Gemini
Advanced de Google, el lanzamiento de la API debería ayudar a fortalecer la posición de OpenAI en el
mercado empresarial a medida que los desarrolladores miran hacia el próximo gran modelo de lenguaje
de la compañía.