Saltar al contenido

Modelos de Lenguaje Extenso (LLM): el reto de la democratización de la IA y una posible solución

Por Andrés Mendoza, ManageEngine Technical Director Southern Europe & LATAM.

Andrés Mendoza, ManageEngine Technical Director Southern Europe & LATAM.

Según el estudio Cost-effective Distillation of Large Language Models, el costo de entrenar GPT-3 empleando miles de GPU Nvidia Tesla V100 es de más o menos $4,6 millones de dólares. Sin embargo, tal como señalan la Universidad Stanford y Nvidia, el gasto puede aumentar dependiendo del número de parámetros y tokens de IA.

La buena noticia es que las compañías generalmente deben incurrir en este gasto solo una vez. Lo mismo no puede decirse del funcionamiento del LLM. Como señala TechCrunch, el funcionamiento de GPT-3 en una instancia P3 de Amazon Web Services (AWS) incurre en gastos de por lo menos $87.000 dólares anuales. ¿Cuánto costará hacer lo mismo con los últimos modelos de LLM, tales como GPT-4 y LLaMa 2? Dada su complejidad y necesidad de más poder de procesamiento, seguramente sea más.

En este caso, ¿cuál puede ser la solución para este obstáculo? ¿O acaso las pequeñas y medianas empresas (PYME) están condenadas a quedar fuera de la carrera de la IA?

En el estudio Cost-effective Distillation of Large Language Models, publicado por Association for Computational Linguistics, los investigadores presentan la destilación de conocimiento (KD) como la solución frente los elevados costos de la implementación de LLM. Este método emplea un modelo “estudiante” que imita el comportamiento del modelo base o “maestro”. El objetivo era que el estudiante, que tiene parámetros más simples que los del maestro, pudiera capturar su desempeño.

A través de este enfoque más simple y agnóstico, los investigadores crearon un modelo más portátil y no tan exigente. Los experimentos se hicieron en una GPU Nvidia Geforce RTX3090 con 24GB RAM y el procesamiento solo costó $0.11 dólares por hora. Este método puede ser muy efectivo para negocios que usen conjuntos de datos pequeños.

Otra solución podría ser Sophia, un método propuesto por la Universidad Stanford. Este se enfoca en ahorrar costos del entrenamiento y plantea una combinación de dos trucos: estimación de curvatura y clipping. La primera, calcula la carga de trabajo del modelo LLM. Sin embargo, este proceso tiende a ser muy costoso. Por fortuna, los investigadores hallaron una forma para optimizarlo y reducir costos.

Sin embargo, esto causaba que la estimación fuera menos precisa. Es aquí donde entra el segundo truco de optimización: clipping. Este plantea un “límite” o una estimación de curvatura máxima. De esta forma, los riesgos de cometer errores son menores.

Incluso al excluir sus costos de desarrollo, el implementar modelos de lenguaje extenso (LLM) puede ser extremadamente costoso. Desde su entrenamiento hasta su mantenimiento, la inversión de dinero y tiempo hace que el potencial de esta tecnología solo esté disponible para aquellas compañías con el suficiente capital. Si se desea conseguir una verdadera democratización de la inteligencia artificial (IA), los grandes pioneros a la cabeza de la carrera deben garantizar la asequibilidad de esta tecnología optimizando su consumo de energía. Esto puede lograrse por medio de procesos como la destilación de conocimientos (KD) y la mezcla de estimación de curvatura y clipping.