LLM Grandes Modelos de Lenguaje, Guía Rápida
Hola mundo! 🤖 En esta guía te cuento un poco de los famosos LLM (Large Language Models) o conocidos en español como “Grandes Modelos de Lenguaje”.
Este es un tema fascinante, y que hoy nos permite tener aplicaciones tan poderosas como las apps de los chatbots, generar imágenes a partir de textos y más 🤪 y a la fecha se han desarrollado/generado varias herramientas para trabajar con LLMs que ire contando en posteriores posts.
Disclaimer: Muchas de las gráficas en este post son este video de Google Cloud: “ intro to LLM” (estas gráficas son muy bonitas :3 )
Preguntando a los chatbots qué es LLM, tenemos estas respuestas:
Entonces un Gran Modelo de Lenguaje (LLM) es un tipo de Inteligencia Artificial (IA) que trabaja y se desarrolla en el área del “Lenguaje” y puede entender y generar texto al estilo “humano” (o comprensible humano), hacer traducción de idiomas, resumir documentos (Document summarization), clasificar textos (Text classification), responder preguntas (Question answering), entre otros. 🤓
Su lugar en el mundo de la IA es el siguiente:
Así que los LLM son un subconjunto de Deep Learning (redes neuronales artificiales profundas).
¿Y por qué el nombre LLM? Por los siguientes puntos:
- Large (Grande): Estos modelos fueron entrenados con grandes volúmenes de datos (large datasets) y con un gran número de parámetros (por ejemplo PALM fue entrenado con miles de millones de parámetros)
- Propósitos Generales: hablamos de Modelos de Lenguaje de Propósito General que pueden ser pre-entrenados y luego “mejor afinado” (fine tuned) para una tarea más específica. Es decir, podemos tomar estos modelos generales y “reentrenarlos/mejorarlos” para una tarea más específica que nosotros tengamos.
¿Cómo funcionan por dentro?
Al ser un subconjunto de Deep Learning, tenemos que hablar de Redes Neuronales Artificiales 🤖 y en especial un tipo de arquitectura que permite que esta “magia” en el lenguaje ocurra: Arquitectura Transformers 🧩
Sin mucho detalle (en este blog, pero si en un próximo), los principales componentes de la arquitectura Transformer” son el Encoder y Decoder. Como se observa en la imagen, pues, está realizando la tarea de traducción 🗣️
🤯 Hasta ahora se ve genial, pero ¿qué tan diferente es al Machine Learning que conocíamos y por qué ahora LLM serían mejores modelos?
Usando los “modelos tradicionales” de ML, se necesita un conocimiento más “experto”, más ejemplos para el entrenamiento (training examples), se hace el entrenamiento completo del modelo y esto implica recursos: hardware (memoria, procesador, etc) y tiempo, hacer validaciones y pruebas para entender que el modelo hace su trabajo de forma óptima. En cambio, al utilizar LLM nos saltamos varios de esos pasos y se puede ya utilizar esos modelos y “afinarlo” para la tarea específica que queremos que haga 👌
Y si hablamos de LLM, tenemos que hablar de chatbots y prompts (indicaciones, órdenes, comandos).
Y eso nos lleva a hablar de 3 tipos principales de LLM, según el prompt:
- Generic (or raw) Language Models: prácticamente predice la siguiente palabra (token) basado en lenguaje del dataset de entrenamiento.
- Instruction Tuned (Instrucción sintonizada/afinada): predice la respuesta basado en las instrucciones dadas (del prompt).
- Dialog Tuned (Diálogo sintonizado/afinado): este modelo fue entrenado para tener un diálogo que predice la siguiente respuesta.
Suena bien, ¿y ahora, dónde se los prueba o cómo se accede? Existen varias plataformas y (actualmente) APIs para conectarse.
Por ejemplo:
Generative AI Studio en Google Cloud Vertex (cómo ingresar a la plataforma, dónde aprender) nos permite “probar/test” los prompts, entender el funcionamiento y además poder exportar ciertas funcionalidades ya en forma de código.
Además de otras herramientas, también Google, para empezar en este mundo LLM.
Buena noticia 🎉 ya tengo acceso al MakerSuite, aún lo estoy probando, pero ya compartiré novedades sobre esto pronto 😁
Y asi, fin de este blog (primera parte o introducción). Aún hay mucho que hablar sobre LLM, en temas de APIS/modelos/frameworks como LLAMA, LangChain, OpenAI ChatGPT, Cohere, Hugging Face, entre otros. Así que continuamos en otro post. 🤓
Es increíble los avances en esta tecnología y aún hay mucho que aprender y desarrollar 🚀
Gracias por leerme, te invito a seguirme en mis redes sociales https://linktr.ee/leslysandra