Esta semana Google dio a conocer “Google Gemini”, un modelo de Inteligencia Artificial (IA) que promete situarse como el más avanzado hasta la fecha, sugiriendo incluso superar en rendimiento a GPT-4 de OpenAI.
Se trata de una nueva herramienta tecnológica que, según el CEO de la compañía, Sundar Pichai, se posiciona como un modelo más competente y versátil que busca liderar el competitivo mercado de la IA.
De acuerdo con Xakata, la herramienta aspira a ser el sucesor de PaLM, el actual modelo de inteligencia artificial empleado por Google Bard. La estrategia consiste en una transición gradual, donde Gemini sustituirá progresivamente a PaLM en la infraestructura de Bard. Aunque seguiríamos utilizando el mismo bot de IA, las respuestas proporcionadas serán considerablemente mejoradas con la implementación de esta nuevo sistema.
“Nuestra primera versión, Gemini 1.0, está optimizada para diferentes tamaños: Ultra, Pro y Nano. Estos son los primeros modelos de la era Gemini y la primera realización de la visión que teníamos cuando formamos Google DeepMind a principios de este año”, dijo Pichai sobre el lanzamiento de la tecnología.
Tal y como dieron a conocer, el avance representa un modelo multimodal con la capacidad de comprender diversos tipos de información, abarcando desde los textos que le presentes hasta imágenes, así como la capacidad de comprender audio y código de programación. Esta característica lo transforma en un modelo sumamente flexible y versátil.
¿Cómo funciona Google Gemini?
Los modelos de inteligencia artificial se someten a un riguroso proceso de entrenamiento mediante el uso extensivo de una vasta cantidad de datos. Se recopila información procedente de toda la red, y estos datos se suministran a los algoritmos de entrenamiento para que el sistema de lenguaje pueda aprender a comprender las instrucciones recibidas, así como asimilar la información necesaria para generar respuestas coherentes y naturales.
En el caso específico de Gemini, Google lo ha diseñado desde cero. Desde sus inicios, ha sido concebido como un modelo multimodal. Esto implica que no ha sido entrenado para comprender exclusivamente una fuente, como el texto, y posteriormente enseñársele a adaptarse a otras fuentes a partir de esa base inicial. Su proceso de entrenamiento ha seguido un enfoque diferente.
Este modelo ha sido entrenado desde sus primeras etapas para integrar de manera nativa diversas modalidades. Esto significa que tiene la capacidad de comprender tanto un texto como un dibujo generado en tiempo real. Según la empresa del buscador, también puede relacionar objetos en tiempo real y ofrecer sugerencias de canciones a medida que recibimos indicaciones.
De acuerdo con escrito reciente en el blog de Google, firmado por Demis Hassabis, el objetivo de este sistema es crear una IA que se parezca menos a programa informático inteligente y que cuente con características de asistente.