Chat en lugar de Photoshop: el Gemini 2.0 de Google aprende a editar imágenes a través del diálogo

Google ha dado un paso inesperado en la carrera de la IA generativa al introducir una versión multimodal experimental de Gemini 2.0 Flash en AI Studio. El modelo no solo puede generar imágenes desde cero, sino también modificar detalles en fotos existentes a través de una simple interfaz de chat, sin necesidad de recrear toda la imagen. Esta es la primera vez que un jugador importante ha introducido tal funcionalidad, superando a OpenAI y a xAI de Elon Musk.

Los usuarios pueden dar comandos a Gemini en un formato conversacional, como "reemplazar el fondo con un paisaje montañoso" o "agregar un subtítulo en ruso." La IA retiene el contexto de la conversación, lo que permite una serie de ediciones progresivas. Por ejemplo, los usuarios pueden cambiar el atuendo de una persona, luego "moverla" a una ubicación diferente y, finalmente, ajustar la iluminación. Todos los cambios se aplican directamente a la imagen original, ahorrando tiempo y recursos.

Cada imagen generada está automáticamente marcada con una marca de agua SynthID, la tecnología de Google para combatir los deepfakes. Esto es particularmente importante para diseñadores y comercializadores, quienes ahora pueden usar legalmente el contenido en proyectos comerciales. Características menos obvias pero igualmente impresionantes incluyen la clonación de texturas, la colorización de fotos antiguas e incluso "completar" elementos faltantes en imágenes utilizando sugerencias basadas en texto.

Si bien Gemini 2.0 Flash entiende comandos en ruso, el servicio no está oficialmente disponible en Rusia. Los desarrolladores y empresas pueden probar el modelo de forma gratuita a través de AI Studio o API, pero algunas funciones, como el intercambio de rostros o la restauración compleja, siguen siendo inestables. Google enfatiza que esta es una versión temprana y que la versión final estará optimizada para tareas en tiempo real.

Los expertos señalan que Google ha, por primera vez, combinado la flexibilidad creativa de Midjourney, la precisión de DALL-E y la interactividad de ChatGPT en un solo modelo. Si el experimento resulta exitoso, podría simplificar significativamente el trabajo en diseño, educación e incluso periodismo, permitiendo la visualización instantánea de datos o la creación de ilustraciones para artículos sin la intervención humana. Por ahora, Gemini 2.0 Flash sigue siendo una herramienta intrigante que ya está redefiniendo las posibilidades de la IA generativa.

La publicación fue traducida Mostrar original (EN)
0
Comentarios 0