Secciones
Servicios
Destacamos
Chat GTP, GTP 4, Bard, PaLM, Grok, Grok 1… El diccionario de términos de Inteligencia Artificial sigue creciendo al mismo ritmo que la vertiginosa carrera por el liderazgo en este sector. El último en llegar es Gemini, el nuevo y más potente cerebro -o motor, ... como se prefiera- para las herramientas de IA de Google. Fue presentado este miércoles y según la compañía del buscador más utilizado del mundo, supera a sus rivales en casi todas las tareas. Y a los humanos también. «Cuando llegamos a la fase final de su entrenamiento, empezamos a ver que era superior a cualquier otro modelo en los benchmarks -test de pruebas-. Es tan buena como los mejores expertos humanos en medio centenar de materias como Historia y Medicina», aseguró Demis Hassabis, uno de los galardonados este año con el premio Fronteras del Conocimiento y CEO de DeepMind, una compañía adquirida por Google en 2014 que se encarga de buena parte del desarrollo de esta tecnología en el seno del gigante.
¿Pero qué es exactamente Gemini? Es lo que los expertos llaman un modelo de lenguaje grande (Large Lenguaje Model, LLM, en inglés), es decir, un programa informático al que se le han dado suficientes ejemplos para que sea capaz de reconocer e interpretar el lenguaje humano u otros tipos de datos complejos. Sobre este cerebro se monta la parte conversacional, el chat, que les permite actuar con nosotros como si fuera una conversación por Whatsapp -esta es la parte que ha llegado al gran público, pero se utilizan para otras muchas tareas-. Gemini y Bard son los equivalentes de GTP -actualmente están disponibles las versiones 3.5 y 4- de Chat GTP, y de Grok 1 y Grok en el caso de X/Twitter.
Una de las características más novedosas de Gemini es que es multimodal, lo que significa que puede procesar y generar texto, código, imágenes, audio y vídeo desde distintas fuentes de datos. En un vídeo de demostración mostraron como la herramienta era capaz de interpretar en tiempo real dibujos, relacionar objetos y sugerir canciones a medida que recibía instrucciones.
El nuevo cerebro de Google tiene tres versiones, Nano, Pro y Ultra. La primera, la más pequeña, está pensada para funcionar en teléfonos móviles. La segunda tiene un tamaño intermedio y ya se puede probar en la versión inglesa de Bard -en el resto sigue funcionando PaLM, otra de las palabras mencionadas del diccionario- y la Ultra, la más potente, no llegará hasta el año que viene. Es esta la que ha superado todas las marcas anteriores en los test de pruebas. Según sus responsables, logró un 90,04% de aciertos en la llamada MMLU, un examen de comprensión masiva del lenguaje multitarea elaborado a partir de 57 materias de ciencias, tecnología, ingeniería, matemáticas, humanidades y ciencias sociales. Su gran rival, GPT-4, se quedó en el 86%. Su rendimiento también fue mejor que el de los especialistas humanos. «Es el primer modelo de IA que supera a los expertos humanos en este punto de referencia estándar de la industria», subrayó Eli Collins, vicepresidente de productos DeepMind. Sus resultados en matemáticas también fueron notables. Obtuvo un 94,4% en el GSM8K, una prueba de un nivel parecido al escolar, frente al 92% del motor de Open AI.
En la presentación, sus creadores insistieron en una de las cuestiones que más preocupan con esta tecnología, la seguridad. Aseguraron que Gemini supera «las evaluaciones más completas de todos los modelos hasta la fecha» y que durante su entrenamiento ha sido supervisado por expertos ajenos a la compañía para asegurarse de que no producía resultados indeseados o sesgos peligrosos.
Con este movimiento, la empresa liderada por Sundar Pichai busca recuperar el terreno perdido frente a Open AI. Paradójicamente, el despegue de estas herramientas se debió a un artículo publicado por expertos de Google en 2017. Titulado 'Attention Is All You Need' , en él se describía una nueva tecnología, los transformadores -la T de GPT, Generative Pre-trained Transformer-. Básicamente lo que hacen estos programas es una especie de adivinanza en la que tienen que adivinar la palabra que sigue, como hace Whatsapp cuando estamos escribiendo un mensaje y nos sugiere el siguiente término. El entrenamiento con miles de millones de datos -más que el número de neuronas de nuestro cerebro- y esos transformadores permitieron que esas adivinanzas fueran cada vez más certeras.
¿Ya eres suscriptor/a? Inicia sesión
Publicidad
Publicidad
Te puede interesar
Carnero a Puente: «Antes atascaba Valladolid y ahora retrasa trenes y pierde vuelos»
El Norte de Castilla
Publicidad
Publicidad
Esta funcionalidad es exclusiva para suscriptores.
Reporta un error en esta noticia
Comentar es una ventaja exclusiva para suscriptores
¿Ya eres suscriptor?
Inicia sesiónNecesitas ser suscriptor para poder votar.