13.03.2024
2928

Los 5 mejores LLM de código abierto

Andrew Andreev
Autor en ApiX-Drive
Tiempo de leer: ~9 min

La disponibilidad pública de LLM es una de las etapas clave en el desarrollo de la IA moderna. Han impulsado la creación de chatbots inteligentes gratuitos como Code Llama, así como muchas otras soluciones igualmente útiles. Nuestro artículo le presentará las características y capacidades de esta tecnología avanzada, así como los 5 principales LLM de código abierto actuales. La revisión que hemos preparado le ayudará a mantenerse al día con las últimas tendencias y elegir la mejor opción para usted.

Contenido:
1. ¿Qué es un modelo de lenguaje grande?
2. Beneficios de un LLM de código abierto
3. Llama 2
4. BLOOM
5. GPT-NeoX
6. Falcon
7. BERT
8. Conclusión
***

¿Qué es un modelo de lenguaje grande?

Large Language Models (LLM) es uno de los tipos de modelos de inteligencia artificial construidos sobre la base de tecnologías de aprendizaje automático y profundo. Aprende de una amplia variedad de datos de texto, como libros, artículos y sitios web. Un modelo debidamente entrenado se vuelve capaz de realizar diversas operaciones en texto. Los LLM modernos comprenden y analizan el texto, realizan exposiciones y traducen entre diferentes idiomas. Además, son capaces de generar textos de diferentes estilos, temáticas y volúmenes según las solicitudes de los usuarios.

Todos los modelos de lenguaje grandes se dividen en dos tipos: propietarios (propiedad de empresas privadas, protegidos por una licencia) y modelos de código abierto. La primera categoría incluye la red neuronal GPT de OpenAI, que es la base del popular chatbot ChatGPT. Los modelos de IA del segundo tipo de dominio público y cualquier persona puede utilizarlos, cambiarlos y modificarlos sin restricciones.

Beneficios de un LLM de código abierto

Los modelos LLM de código abierto tienen una serie de ventajas importantes. Estas incluyen:

  • Ahorro. La ausencia de tarifas de licencia hace que este software sea beneficioso para pequeñas empresas y nuevas empresas con presupuestos limitados, así como para particulares.
  • Personalización. El código fuente abierto permite personalizar y adaptar de manera flexible el modelo a las características específicas y requisitos de una industria, empresa o proyecto en particular.
  • Transparencia. La apertura hace que los LLM sean más comprensibles, confiables y seguros. Cualquiera puede examinar el código fuente del modelo para evaluar sus parámetros y funciones reales.
  • Confidencialidad. La capacidad de implementar el modelo en la infraestructura interna brinda a los usuarios el máximo control sobre sus datos.
  • Independencia. Los LLM de código abierto ayudan a las empresas a eliminar la dependencia de los proveedores del software y hacer que su uso sea más flexible.
  • Innovación. La capacidad de cambiar y perfeccionar libremente dichos modelos lingüísticos promueve la innovación. Empresas, startups y particulares no solo pueden mejorarlos, sino también utilizarlos como base a la hora de desarrollar nuevas aplicaciones.

Los modelos abiertos han demostrado su eficacia en la realización de diversas tareas. Se utilizan activamente en el proceso de creación de chatbots inteligentes, generación de contenido, traducción de textos, investigación, análisis de sentimientos, etc.

Llama 2

La red neuronal Llama 2, presentada por Meta en el verano de 2023, mantiene con confianza su posición entre los mejores LLM de código abierto. Hoy en día, es uno de los pocos modelos de lenguaje abierto completamente gratuitos creados por una gran corporación. La mayoría de las redes neuronales de este nivel (OpenAI GPT, Anthropic Claude, Google PaLM) son propietarias. Se han desarrollado otros metaproductos basados en Llama 2. Los más famosos son el modelo de IA para generar código de programa Code Llama y el chatbot Llama Chat.

Llama 2


Características clave:

  • El sistema verifica, complementa y genera código desde cero, crea explicaciones y realiza la depuración. Además del código, genera y procesa texto de manera eficiente y comprende consultas tanto en código como en formato de lenguaje natural.
  • El modelo de IA admite los lenguajes de programación más populares, incluidos Python, C++, Java, PHP, TypeScript (JavaScript), C# y Bash.
  • Llama 2 se entrenó utilizando miles de millones de páginas web, artículos de Wikipedia, libros del Proyecto Gutenberg y millones de consultas de usuarios.
  • LLM tiene tres variedades: con 7 mil millones (7B), 13 mil millones (13B) y 70 mil millones (70B) de parámetros.
  • El código fuente abierto y los bajos requisitos de recursos de este gran modelo de lenguaje lo hacen accesible para nuevas empresas, organizaciones sin fines de lucro, comunidades científicas y usuarios individuales.
  • Meta desarrolló este modelo de IA utilizando Research Super Cluster y varios clústeres internos con GPU NVIDIA A100. Su período de entrenamiento osciló entre 184,000 horas de GPU para el modelo 7B y 1.7 millones de horas de GPU para el modelo 70B.
  • Llama 2 (variante 70B) supera a muchos LLM de código abierto. Los resultados de sus pruebas indican que cumple con GPT-3.5 y PaLM en la mayoría de los criterios. Al mismo tiempo, está por detrás de GPT-4 y PaLM 2.
  • El software está disponible gratuitamente y puede utilizarse con fines privados, comerciales o de investigación. Todos tienen la oportunidad de descargar este modelo de IA desde el sitio web oficial del proyecto (la versión de tamaño mínimo 7B pesa aproximadamente 13 GB). Después de eso, puedes ejecutarlo en tu computadora y estudiar la documentación técnica.

BLOOM

BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) es un conocido LLM de código abierto, lanzado en el verano de 2022. Un gran equipo trabajó en este proyecto con más de 1200 participantes de 39 países. Al igual que otros modelos de IA similares, BLOOM tiene una arquitectura "transformadora" y contiene 176 mil millones de parámetros. Durante el entrenamiento, procesó 1,5 terabytes de texto y 350 mil millones de tokens únicos.

¡Conecta servicios sin programadores en 5 minutos!

El desarrollo de esta red neuronal fue coordinado por BigScience en colaboración con Hugging Face y el Centro Nacional Francés de Investigación Científica. Su entrenamiento se llevó a cabo en una supercomputadora alimentada por energía nuclear.

Características clave:

  • El material de formación para el modelo de lenguaje fue el conjunto de datos ROOTS con un extenso conjunto de datos de más de 100 fuentes en 59 idiomas: 46 hablados y 13 lenguajes de programación.
  • BLOOM es un modelo escalable. Admite herramientas y bases de datos disponibles públicamente.
  • La red neuronal está disponible públicamente en el sitio web de Hugging Face. Los usuarios pueden seleccionar los idiomas que les interesan y luego enviar solicitudes para completar determinadas tareas.
  • El modelo es eficaz para escribir textos de diferente extensión y contenido, traducir y resumir textos existentes, generar código de programa y otros procesos de PLN.
  • El modelo de lenguaje grande BLOOM de código abierto tiene más parámetros que GPT-3 de OpenAI (176B frente a 175B). Según sus creadores, este es el primer modelo de IA a gran escala para trabajar con texto en español y árabe.
  • El software automatiza fácilmente las tareas de programación, incluida la generación y depuración de código. Por lo tanto, es una herramienta útil tanto para principiantes como para desarrolladores experimentados.
  • BLOOM ha ganado reconocimiento en la comunidad científica por sus amplias capacidades para el análisis lingüístico y la investigación de IA.

GPT-NeoX

LLM de código abierto GPT-NeoX es un participante igualmente digno en nuestra selección. El grupo de investigación EleutherAI lo lanzó a principios de 2022. Cabe destacar que los desarrolladores interactuaron entre sí únicamente a través de Discord y GitHub. Sin embargo, esto no les impidió presentar a la audiencia una alternativa completa, gratuita y de código abierto a GPT-3.

Características clave:

  • GPT-NeoX-20B, con 20 mil millones de parámetros, se entrena en GPU CoreWeave utilizando The Pile. Se basa en la arquitectura "transformador".
  • Según los resultados de las pruebas realizadas por EleutherAI, este LLM superó a la versión Curie del modelo GPT-3 en varios puntos porcentuales y fue inferior en varios puntos porcentuales a la versión GPT-3 DaVinci, que tiene alrededor de 150 mil millones de parámetros.
  • GPT-NeoX es uno de los LLM de código abierto más importantes. Fue entrenado con un conjunto de datos de 850 GB de textos disponibles públicamente.
  • El modelo de IA realiza eficientemente muchas tareas de PLN, incluida la generación, análisis, resumen, edición y traducción de texto. Además, es capaz de crear, complementar y comentar código de programa.
  • GPT-NeoX es una tecnología experimental. Los desarrolladores no recomiendan implementarlo en un entorno de producción sin probarlo primero. Para ejecutar el modelo, se requieren al menos 42 GB de VRAM y 40 GB de espacio en disco.
  • El modelo está construido sobre Megatron y DeepSpeed ​​​​e implementado en PyTorch.
  • En el proceso de desarrollo del software participaron 12 servidores Supermicro AS-4124GO-NART. Cada uno estaba equipado con 8 GPU NVIDIA A100-SXM4-40GB y 2 procesadores AMD EPYC 7532.

Falcon

Falcon es un miembro relativamente nuevo de los modelos LLM de código abierto. Su primera versión se lanzó en junio de 2023. Hoy en día, los usuarios tienen a su disposición 4 variedades de este modelo: Falcon 180B, 40B, 7.5B y 1.3B. Se diferencian en tamaño y potencia y tienen de 1.3 a 180 mil millones de parámetros, respectivamente.

Falcon


Características clave:

  • El desarrollo del modelo de lenguaje fue llevado a cabo por el Instituto de Innovación Tecnológica (TII), parte del Consejo de Investigación de Tecnología Avanzada del Gobierno de Abu Dhabi.
  • Falcon fue entrenado en la nube de AWS durante dos meses utilizando hasta 4096 GPU simultáneamente. El tiempo total de entrenamiento fue de 7,000,000 horas de GPU.
  • La versión 180B se lanzó en septiembre de 2023. Es el LLM de código abierto más grande en la actualidad. El material para su formación fue un conjunto de 3.5 billones de tokens del conjunto de datos RefinedWeb de TII.
  • La red neuronal está disponible para fines comerciales y de investigación. En términos de rendimiento, se encuentra en la cima de las clasificaciones abiertas de LLM y se considera el mejor modelo de lenguaje grande de código abierto.
  • Los usuarios pueden ver el modelo en Hugging Face Hub (tanto la versión básica como la versión de chat). Sus capacidades se pueden probar en Falcon Chat Demo Space.
  • El Falcon 180B es 2.5 veces más grande que el Llama 2 de Meta. Se utilizaron cuatro veces más recursos para entrenarlo. Además, es más potente que el GPT-3.5 de OpenAI y comparable al Google PaLM 2.
  • La red neuronal hace frente eficazmente a diversas tareas de generación y procesamiento de texto, así como de código de programa. Esto ha sido confirmado por numerosas pruebas.

BERT

Nuestra selección termina con BERT, el primer y más importante modelo moderno de lenguaje grande de código abierto. Fue lanzado en 2018 por un equipo de investigadores de Google y pronto se convirtió en la base de varios proyectos posteriores para desarrollar tecnologías de PLN. Al igual que otros modelos de lenguaje similares, tiene una arquitectura "transformadora". Su nombre abreviado significa "Bidirectional Encoder Representations from Transformers".

Características clave:

  • Inicialmente, el modelo tenía dos versiones, con 110 y 340 millones de parámetros. Ambos solo admitían inglés. Fueron entrenados en el conjunto de datos BookCorpus de Toronto (800 millones de palabras) y la Wikipedia en inglés (2500 millones de palabras).
  • BERT fue el primer LLM con la entonces arquitectura neuronal experimental “transformer”, creada por el equipo de Google en 2017.
  • El modelo de IA aborda con éxito muchas tareas de PLN. Puede generar y resumir texto, traducir entre diferentes idiomas, responder preguntas, analizar opiniones y resolver problemas automáticamente.
  • En 2020, Google integró BERT en el módulo de búsqueda de Google en más de 70 idiomas. Al utilizar una red neuronal para clasificar el contenido y mostrar fragmentos, el motor de búsqueda tiene en cuenta el contexto de las consultas de los usuarios y produce resultados más relevantes.
  • El modelo de lenguaje tiene muchas variaciones creadas sobre esta base. Los más famosos son RoBERTa, DistilBERT y ALBERT.

Conclusión

Esperamos haber podido explicar claramente qué es un modelo de lenguaje grande de código abierto y hablar sobre las características de las redes neuronales más famosas de este tipo. La aparición de modelos de lenguaje grandes gratuitos y de código abierto fue verdaderamente un evento histórico en la historia de la IA moderna. Gracias a ellos, cualquier persona puede utilizar las redes neuronales para cualquier propósito, sin costos ni restricciones. Además, el código fuente abierto permite mejorarlos ilimitadamente, así como desarrollar nuevos proyectos de IA basados en ellos.

***

El tiempo es el recurso más valioso en la realidad empresarial actual. Al eliminar la rutina de los procesos de trabajo, obtendrá más oportunidades para implementar los planes e ideas más atrevidos. Elija: puede seguir perdiendo tiempo, dinero y nervios en soluciones ineficientes, o puede utilizar ApiX-Drive, automatizando los procesos de trabajo y logrando resultados con una inversión mínima de dinero, esfuerzo y recursos humanos.