LLM Grandes Modelos de Lenguaje, Guía Rápida

Lesly Zerna
5 min readAug 17, 2023

--

Hola mundo! 🤖 En esta guía te cuento un poco de los famosos LLM (Large Language Models) o conocidos en español como “Grandes Modelos de Lenguaje”.
Este es un tema fascinante, y que hoy nos permite tener aplicaciones tan poderosas como las apps de los chatbots, generar imágenes a partir de textos y más 🤪 y a la fecha se han desarrollado/generado varias herramientas para trabajar con LLMs que ire contando en posteriores posts.

Disclaimer: Muchas de las gráficas en este post son este video de Google Cloud: “ intro to LLM” (estas gráficas son muy bonitas :3 )

Preguntando a los chatbots qué es LLM, tenemos estas respuestas:

A la izquierda la respuesta de ChatGPT 3.5 versión gratuita (recordar que su conocimiento es hasta 2021) y ala izquierda respuesta de BARD

Entonces un Gran Modelo de Lenguaje (LLM) es un tipo de Inteligencia Artificial (IA) que trabaja y se desarrolla en el área del “Lenguaje” y puede entender y generar texto al estilo “humano” (o comprensible humano), hacer traducción de idiomas, resumir documentos (Document summarization), clasificar textos (Text classification), responder preguntas (Question answering), entre otros. 🤓

Su lugar en el mundo de la IA es el siguiente:

Imagen del video de Google Cloud: Intro a LLM https://youtu.be/zizonToFXDs

Así que los LLM son un subconjunto de Deep Learning (redes neuronales artificiales profundas).

¿Y por qué el nombre LLM? Por los siguientes puntos:

  • Large (Grande): Estos modelos fueron entrenados con grandes volúmenes de datos (large datasets) y con un gran número de parámetros (por ejemplo PALM fue entrenado con miles de millones de parámetros)
  • Propósitos Generales: hablamos de Modelos de Lenguaje de Propósito General que pueden ser pre-entrenados y luego “mejor afinado” (fine tuned) para una tarea más específica. Es decir, podemos tomar estos modelos generales y “reentrenarlos/mejorarlos” para una tarea más específica que nosotros tengamos.

¿Cómo funcionan por dentro?

Al ser un subconjunto de Deep Learning, tenemos que hablar de Redes Neuronales Artificiales 🤖 y en especial un tipo de arquitectura que permite que esta “magia” en el lenguaje ocurra: Arquitectura Transformers 🧩

Imagen del video de Google Cloud: Intro a LLM https://youtu.be/zizonToFXDs

Sin mucho detalle (en este blog, pero si en un próximo), los principales componentes de la arquitectura Transformer” son el Encoder y Decoder. Como se observa en la imagen, pues, está realizando la tarea de traducción 🗣️

🤯 Hasta ahora se ve genial, pero ¿qué tan diferente es al Machine Learning que conocíamos y por qué ahora LLM serían mejores modelos?

Imagen del video de Google Cloud: Intro a LLM https://youtu.be/zizonToFXDs

Usando los “modelos tradicionales” de ML, se necesita un conocimiento más “experto”, más ejemplos para el entrenamiento (training examples), se hace el entrenamiento completo del modelo y esto implica recursos: hardware (memoria, procesador, etc) y tiempo, hacer validaciones y pruebas para entender que el modelo hace su trabajo de forma óptima. En cambio, al utilizar LLM nos saltamos varios de esos pasos y se puede ya utilizar esos modelos y “afinarlo” para la tarea específica que queremos que haga 👌

Y si hablamos de LLM, tenemos que hablar de chatbots y prompts (indicaciones, órdenes, comandos).

Respuesta de BARD https://bard.google.com/

Y eso nos lleva a hablar de 3 tipos principales de LLM, según el prompt:

  • Generic (or raw) Language Models: prácticamente predice la siguiente palabra (token) basado en lenguaje del dataset de entrenamiento.
  • Instruction Tuned (Instrucción sintonizada/afinada): predice la respuesta basado en las instrucciones dadas (del prompt).
  • Dialog Tuned (Diálogo sintonizado/afinado): este modelo fue entrenado para tener un diálogo que predice la siguiente respuesta.

Suena bien, ¿y ahora, dónde se los prueba o cómo se accede? Existen varias plataformas y (actualmente) APIs para conectarse.

Por ejemplo:

Imagen del video de Google Cloud: Intro a LLM https://youtu.be/zizonToFXDs

Generative AI Studio en Google Cloud Vertex (cómo ingresar a la plataforma, dónde aprender) nos permite “probar/test” los prompts, entender el funcionamiento y además poder exportar ciertas funcionalidades ya en forma de código.

https://console.cloud.google.com/vertex-ai/generative

Además de otras herramientas, también Google, para empezar en este mundo LLM.

Imagen del video de Google Cloud: Intro a LLM https://youtu.be/zizonToFXDs

Buena noticia 🎉 ya tengo acceso al MakerSuite, aún lo estoy probando, pero ya compartiré novedades sobre esto pronto 😁

Y asi, fin de este blog (primera parte o introducción). Aún hay mucho que hablar sobre LLM, en temas de APIS/modelos/frameworks como LLAMA, LangChain, OpenAI ChatGPT, Cohere, Hugging Face, entre otros. Así que continuamos en otro post. 🤓

Es increíble los avances en esta tecnología y aún hay mucho que aprender y desarrollar 🚀

Imagen del video de Google Cloud: Intro a LLM https://youtu.be/zizonToFXDs

Gracias por leerme, te invito a seguirme en mis redes sociales https://linktr.ee/leslysandra

--

--

Lesly Zerna

🤖 enthusiastic explorer | AI + Education | startups