Microsoft ha dado a conocer el lanzamiento de Phi-2, un modelo de lenguaje pequeño que ha logrado superar a Llama 2 y otros competidores. Desarrollado por Microsoft Research, este modelo ha demostrado notables capacidades de razonamiento y comprensión del lenguaje.
Tras realizar diversas pruebas, los investigadores han constatado que Phi-2 supera en rendimiento a la inteligencia artificial de Meta y Google en algunas tareas específicas.
Esta tecnología de Inteligencia Artificial se integra en una familia de modelos basados en transformadores que cuentan con una cantidad reducida de parámetros. Según Microsoft, la premisa detrás de su desarrollo se centra en la posibilidad de alcanzar un rendimiento cercano a los modelos más extensos, como Llama o Mistral.
En términos de escala, Phi-2 posee 2.700 millones de parámetros, mientras que se estima que GPT-4 tendría alrededor de 1.700 billones.
A pesar de esta limitación en cuanto al número de parámetros, la inteligencia artificial de Microsoft iguala o incluso supera a modelos hasta 25 veces más grandes. En una serie de pruebas relacionadas con matemáticas y programación, Phi-2 demostró un rendimiento superior a Llama 2, la inteligencia artificial de Meta.
Los desarrolladores llevaron las pruebas un paso más allá al compararlo con Gemini Nano 2, donde logró resolver problemas de física de manera similar a la inteligencia artificial desarrollada por Google.
“Con solo 2,7 mil millones de parámetros, Phi-2 supera el rendimiento de los modelos Mistral y Llama-2 en los parámetros 7B y 13B en varios puntos de referencia agregados”, mencionaron los desarrolladores. Asimismo, destacaron que “en particular, logra un mejor rendimiento en comparación con el modelo Llama-2-70B 25 veces más grande en tareas de razonamiento de varios pasos, es decir, codificación y matemáticas”.
El entrenamiento es la clave para el éxito de Phi-2
Phi-2 fue entrenado con un conjunto de datos que abarca textos sintéticos de procesamiento del lenguaje natural (PNL), fragmentos de código obtenidos de Stack Overflow, competiciones de programación y otros recursos. Por esta razón, ofrece respuestas menos tóxicas y sesgadas que Llama 2.
Microsoft destacó la importancia de la calidad de los datos de entrenamiento en el rendimiento del modelo. A diferencia de GPT-4, Microsoft lleva a cabo una curación de datos web, filtrando la información según su valor educativo. El equipo de investigadores empleó un conjunto de datos que posee una calidad comparable a la de los libros de texto, una estrategia que ha sido aplicada desde la primera versión de Phi.
“Nuestra combinación de datos de entrenamiento contiene conjuntos de datos sintéticos creados específicamente para enseñar al modelo razonamiento con sentido común y conocimientos generales, incluida la ciencia, las actividades diarias y la teoría de la mente, entre otros”, manifestaron.