Gemini de Google es un nuevo tipo de inteligencia artificial
Mientras expertos de diversos rangos rompen lanzas en acaloradas discusiones sobre la necesidad de continuar los experimentos con inteligencia artificial, acelerar su desarrollo y el nivel de amenaza que se cierne sobre la humanidad debido a ello, Google decidió no perder el tiempo y no esperar a ser superado por sus competidores. En diciembre de 2023 anunció el lanzamiento de un nuevo modelo de IA, Gemini. Por cierto, las primeras menciones al respecto se hicieron en mayo, en la presentación de I/O 2023.
El año pasado, Google estaba detrás de su principal competidor OpenAI en el campo de la IA, pero ahora tiene una buena oportunidad de demostrar que su producto no solo es el mejor en su categoría, sino que también tiene el potencial de cambiar fundamentalmente la forma en que interactuamos con las artificiales inteligencias. Los desarrolladores planean cubrir casi todo el negocio del gigante de las búsquedas con las capacidades del nuevo producto y afirman que ha superado al popular modelo GPT-4 de OpenAI e incluso a los expertos humanos en varias pruebas de inteligencia. En nuestro artículo aprenderás qué es, para qué se utiliza y dónde, qué lo hace único y mucho más.
Gemini: una innovación revolucionaria en IA
El modelo Gemini AI es un producto innovador que tiene la capacidad única de procesar información de diferentes tipos: texto, video, audio y código de programa.
Habilidades básicas:
- saca conclusiones basadas en los datos estudiados, traduce textos, dialoga;
- resuelve problemas usando el pensamiento matemático;
- genera código de programa y crea documentación;
- reconoce y comprende imágenes, vídeo y audio.
Esta inteligencia artificial produce pensamientos más complejos, responde preguntas difíciles y comprende información mucho más matizada que su predecesor Bard. Al realizar múltiples tareas, puede extraer los datos más valiosos e importantes de cientos de miles de documentos. Además, Gemini 1.0 está equipado con una herramienta AlphaCode 2 actualizada, gracias a la cual el modelo comprende, explica y genera código de programa de alta calidad en los lenguajes más comunes: Java, C++, Python y Go. Demuestra excelentes resultados en la resolución de problemas de programación que van más allá de la simple codificación e incluyen elementos de informática teórica y matemáticas superiores. Todo esto le da a Google buenas razones para creer que su modelo ayudará a lograr avances en una variedad de campos, desde la ciencia hasta la economía y las finanzas.
Según representantes de la empresa, Gemini fue capacitado inicialmente para trabajar con diferentes formatos de información. Como ejemplo de cómo funciona el nuevo producto, presentaron un vídeo donde el chatbot Bard basado en Gemini ayuda a un estudiante a completar su tarea de física. Como entrada, el alumno sube fotografías de preguntas escritas en una hoja de papel. Después de estudiarlos, la IA da respuestas paso a paso con ecuaciones.
Una de las ventajas competitivas de la inteligencia artificial Gemini es su alta adaptabilidad a cualquier dispositivo. Se puede utilizar prácticamente en cualquier lugar, desde un simple teléfono inteligente hasta grandes centros de datos.
¿Qué tiene de especial la nueva IA?
Los representantes de Google afirman que Gemini es un modelo de IA innovador, cuyo potencial, como ya hemos mencionado, le permitirá superar a GPT-4 de OpenAI y de los expertos vivos. Toda la gama de sus capacidades se basa en dos características principales: la multimodalidad y la humanidad.
La creación de una IA multimodal que sea verdaderamente eficaz y atractiva para los usuarios solo se puede lograr fusionando diferentes modelos de inteligencia artificial. El modelo de lenguaje, la visión por computadora, el procesamiento de gráficos y sonido, la programación y la codificación: todo esto debe integrarse y coordinarse adecuadamente para lograr una sinergia completa. Esta es una tarea monumental y muy difícil, y Google logró resolverla creando Gemini. Además, la corporación irá aún más lejos y llevará este concepto a un nivel sin precedentes.
Hemos resuelto la multimodalidad, ahora hablemos de humanidad. La razón del sorprendente éxito de casi cualquier IA generativa es la capacidad de la máquina para imitar lo que hace un humano. ¿De qué estamos hablando exactamente? Las personas no fragmentan sus actividades en tareas independientes entre sí: comunicación, codificación, redacción de informes, creatividad gráfica. Pueden hacer todo esto al mismo tiempo. Por ejemplo, en el proceso de creación de un dibujo, llamas a un colega y le aclaras algunos detalles de la imagen, luego de lo cual escribes a tu gerente vía messenger y le envías un informe sobre el trabajo realizado durante el mes. El cerebro humano es capaz de percibir, interpretar y comprender simultáneamente datos en diferentes formatos: texto, voz, sonidos e imágenes. Gracias a esto, somos conscientes del entorno que nos rodea, respondemos a estímulos e incentivos, y también encontramos formas innovadoras y atípicas de resolver problemas. Gemini de Google tiene la misma capacidad, acercándolo un paso más a los humanos.
Modelos de entrenamiento
Para entrenar a Gemini, Google implementó una potencia informática sin precedentes utilizando los chips de entrenamiento TPUv5 más avanzados. Su sistema de procesador tensor TPUv5p es la única tecnología del mundo que puede ejecutar 16.384 chips simultáneamente. Este acelerador de IA ultrapotente está diseñado para centros de datos donde se entrenan y ejecutan modelos generativos a gran escala. Fue él quien le dio a Google la oportunidad de dotar a un producto tan masivo como Gemini del máximo conocimiento y habilidades.
La base para entrenar cualquier modelo de IA no es solo la potencia de los chips y su número, sino también los datos. Nada funcionará sin ellos. Pero en este ámbito Google prácticamente no tiene igual. Según la consultora SemiAnalysis, la recopilación de datos únicamente en código de la corporación está valorada en aproximadamente 40 billones de tokens. Esta cantidad equivale a cientos de petabytes (para mayor claridad, podemos imaginar el texto de millones de libros). Uno de esos conjuntos de Google es 4 veces el volumen de todos los datos (codificados y no codificados) que se utilizaron para entrenar ChatGPT-4.
El director ejecutivo de Alphabet Inc. y Google, Sundar Pichai, y el director ejecutivo de la filial de Google, DeepMind, Demis Hassabis, consideran que la aparición de Gemini es un gran salto en el desarrollo de la IA, que afectará a casi todos los productos de la corporación.
Aplicaciones de Gemini
Hoy en día, la inteligencia artificial se está implementando activamente en muchas áreas: industria, tecnología, educación, ciencia y negocios. Gemini encontrará aplicación en las siguientes áreas:
- Visión por computadora (detección de objetos y anomalías, procesamiento y comprensión de escenas 3D).
- Ciencia de datos geo espaciales (monitoreo 24 horas al día, 7 días a la semana, combinando información de múltiples fuentes, analizándola y estructurándola).
- Atención sanitaria (medicina preventiva, personalización del sistema sanitario, biosensores).
- Tecnologías inteligentes e integradas por computadora (LLM, síntesis de datos, transferencia de conocimientos temáticos a sistemas, ampliación de la gama de capacidades de toma de decisiones basadas en datos).
Versiones de Google Gemini
Ya hemos señalado que Gemini es un modelo flexible que tiene la capacidad de funcionar en cualquier dispositivo: desde un enorme centro de datos hasta un teléfono inteligente normal. Para lograr esta escalabilidad, Google lo lanzó en 3 versiones, que se diferencian en tamaño y funcionalidad:
- Nano;
- Pro;
- Ultra.
Nano
Gemini Nano es el modelo más pequeño. Es más adecuado para resolver tareas que requieren asistencia de IA directamente en el dispositivo, sin conectarse a un servidor externo. Ejemplos de este tipo de tareas: resumir un texto, sugerir una respuesta en una aplicación de chat. Además de la comodidad, este modelo de IA garantiza que los usuarios mantengan la confidencialidad de sus datos.
Nano está diseñado para teléfonos inteligentes y viene en 2 versiones. Uno tiene 1.800 millones de parámetros y está destinado a dispositivos más lentos. El segundo tiene 3,25 mil millones de parámetros, por lo que se puede utilizar en teléfonos más potentes.
Pro
Gemini Pro es un modelo todoterreno de tamaño mediano (100 mil millones de parámetros) que puede hacer frente a una amplia gama de tareas. Entiende consultas complejas y proporciona respuestas rápidas. Su objetivo principal es el núcleo de la última versión del chatbot Bard. Además, ya se utiliza en los centros de datos corporativos de Google. Los representantes de la corporación afirman que ha superado a otros modelos de IA generativa e incluso al conocido GPT-3.5 de OpenAI.
Los desarrolladores y usuarios empresariales pueden acceder a Gemini Pro a través de API a través de los servicios Google AI Studio y Google Cloud Vertex AI.
Ultra
Gemini Ultra es el modelo más grande y potente, diseñado para resolver problemas extremadamente complejos. El número de sus parámetros supera el billón. Ultra actualmente supera las capacidades de todos los modelos de inteligencia artificial existentes en el mundo. Fue la primera en vencer a un humano en la prueba estándar MMLU, con una puntuación del 90%. Puede obtener más información sobre esto en la siguiente sección.
Actualmente, solo algunos expertos en seguridad, evaluadores y socios comerciales clave de la corporación tienen acceso a Ultra. Google tiene previsto abrirlo a todos sus desarrolladores y usuarios empresariales a principios de 2024. En este momento, también está previsto el lanzamiento del asistente Bard Advanced AI, que obtendrá todas las capacidades de esta versión de Gemini.
Gemini VS GPT-4
Las pruebas realizadas por Google demostraron que Gemini era mejor que cualquier producto OpenAI. La corporación compartió dos tablas comparando su propio desarrollo con el modelo GPT-4. Según los datos presentados en ellos, Gemini es líder en la mayoría absoluta de indicadores. Por ejemplo, en las pruebas MMLU, el 90% de sus respuestas fueron correctas. La puntuación de ChatGPT es del 86,4%. Curiosamente, logró vencer incluso a una persona con un nivel experto, que suele obtener una puntuación del 89,8% en estas pruebas.
Como referencia. MMLU (Massive Multitask Language Understanding) es una prueba estándar que mide las capacidades de la inteligencia artificial. Consiste en un conjunto de problemas en 57 grupos temáticos, que incluyen matemáticas, física, geografía, historia, derecho, economía, medicina, ética, así como preguntas complejas sobre falacias lógicas, problemas morales en la vida cotidiana, etc.
En 30 de 32 pruebas realizadas como parte del estudio LLM Gemini, superó a GPT-4. Según los resultados de tres pruebas sobre la capacidad de comprender información y sacar conclusiones correctas, este modelo obtuvo una victoria aplastante en dos de ellas. También obtuvo el primer lugar en pruebas de codificación y matemáticas.
Al trabajar con imágenes, vídeo y audio, Gemini volvió a demostrar ser mejor que GPT-4, superando a su competidor en absolutamente todas las pruebas.
Integraciones
Google desarrolló Gemini no solo para modernizar su chatbot Bard e integrar inteligencia artificial en los teléfonos inteligentes. La corporación enfatizó que el nuevo producto se integrará en todos sus productos más importantes, en particular en el motor de búsqueda del mismo nombre, el navegador Chrome, el servicio de publicidad contextual Google Ads y el asistente Duet AI.
Aún no hay información sobre cuándo sucederá exactamente esto. Google se limitó a la vaga redacción "en los próximos meses".
Bard
Gemini Pro ya se ha implementado en el chatbot Bard. Los desarrolladores están convencidos de que dicho núcleo lo llevará al siguiente nivel y esperan que le permita evitar ChatGPT. Antes de esta integración, Bard tuvo un desempeño deficiente en comparación con el producto OpenAI.
A pesar del carácter multilingüe de la versión actual del chatbot Bard, por el momento el modelo Gemini en su composición es exclusivamente de habla inglesa. Hay planes para admitir otros idiomas en el futuro.
Aquellos que quieran utilizar la versión más potente de Gemini Ultra tendrán que pagar. La versión de pago se llamará Bard Advanced y aparecerá a principios de 2024, pero aún se desconoce su coste. Por cierto, OpenAI fue el primero en utilizar este enfoque, ofreciendo ChatGPT-3.5 de forma gratuita y una suscripción a ChatGPT-4 por 20 dólares.
Teléfonos inteligentes Pixel
Los teléfonos inteligentes Pixel recibieron soporte integrado para el modelo Gemini Nano junto con la actualización de diciembre del Pixel 8 Pro. Es cierto que sus capacidades siguen siendo limitadas. Actualmente, controla la función Resumir en la aplicación Grabadora de Android. Además, esta IA puede hacerse cargo de la función Smart Reply de Android, pero solo si usas el teclado de Google y exclusivamente en el mensajero de WhatsApp. En 2024, Gemini se implementará en otros programas de mensajería instantánea, así como en otras partes del sistema operativo de los dispositivos Pixel.
Problemas y desventajas
El modelo Gemini de inteligencia artificial representa verdaderamente un gran salto en el desarrollo de sus capacidades. Sin embargo, no está exento de inconvenientes, que son comunes a cualquier LLM. Entre las principales desventajas se encuentran:
- el riesgo de generar información falsa;
- acceso a materiales educativos de baja calidad;
- cierta comprensión limitada del mundo real.
Google no niega que su nuevo y revolucionario producto puede cometer errores e incluso presentar como hecha información que contradice el sentido común, es decir, “alucinar”. Los representantes de la corporación creen que se necesitan pruebas adicionales, especialmente la versión Ultra, cuyas capacidades aún no se han explorado completamente. Por el momento, los desarrolladores están estudiando y evaluando muy meticulosamente el trabajo de Gemini para minimizar el riesgo de daño al usuario.
Resumámoslo
Si se considera que 2023 es la fecha en la que la IA ganó gran popularidad y se empezó a utilizar de forma masiva, entonces 2024 bien podría ser el punto culminante de Google Gemini. Este modelo de IA se utilizará para escribir código de programa, mejorar y automatizar operaciones (tanto en la nube como periféricas), aumentar las ventas, así como para la integración en chatbots y asistentes de IA en aplicaciones, teléfonos inteligentes y más.
El rendimiento superior de Gemini en comparación con otros modelos de inteligencia artificial y humanos nos permite hacer un pronóstico muy optimista, incluso casi fantástico, sobre las capacidades de la IA en el futuro. Y, sin embargo, no debemos olvidarnos de la necesidad de realizar investigaciones adicionales para finalmente superar las deficiencias. En cuanto a Gemini específicamente, se espera que este modelo aporte funciones más útiles e inteligentes a casi todos los productos de Google en el futuro.
¿Las tareas rutinarias toman mucho tiempo de los empleados? ¿Se agotan, no tienen suficiente jornada laboral para las tareas principales y las cosas importantes? ¿Entiende que la única salida a esta situación en las realidades modernas es la automatización? Pruebe Apix-Drive gratis y asegúrese de que el conector en línea en 5 minutos de configurar las integraciones eliminará una parte importante de la rutina de su vida y liberará tiempo para usted y sus empleados.