Saltar al contenido

Modelos de Lenguaje Extenso (LLM): el reto de la democratización de la IA y una posible solución

Andrés Mendoza, ManageEngine Technical Director Southern Europe & LATAM.

Por Andrés Mendoza, ManageEngine Technical Director Southern Europe & LATAM.

Según el estudio Cost-effective Distillation of Large Language Models, el costo de entrenar GPT-3 empleando miles de GPU Nvidia Tesla V100 es de más o menos $4,6 millones de dólares. Sin embargo, tal como señalan la Universidad Stanford y Nvidia, el gasto puede aumentar dependiendo del número de parámetros y tokens de IA.

La buena noticia es que las compañías generalmente deben incurrir en este gasto solo una vez. Lo mismo no puede decirse del funcionamiento del LLM. Como señala TechCrunch, el funcionamiento de GPT-3 en una instancia P3 de Amazon Web Services (AWS) incurre en gastos de por lo menos $87.000 dólares anuales. ¿Cuánto costará hacer lo mismo con los últimos modelos de LLM, tales como GPT-4 y LLaMa 2? Dada su complejidad y necesidad de más poder de procesamiento, seguramente sea más.

En este caso, ¿cuál puede ser la solución para este obstáculo? ¿O acaso las pequeñas y medianas empresas (PYME) están condenadas a quedar fuera de la carrera de la IA?

 

 

En el estudio Cost-effective Distillation of Large Language Models, publicado por Association for Computational Linguistics, los investigadores presentan la destilación de conocimiento (KD) como la solución frente los elevados costos de la implementación de LLM. Este método emplea un modelo “estudiante” que imita el comportamiento del modelo base o “maestro”. El objetivo era que el estudiante, que tiene parámetros más simples que los del maestro, pudiera capturar su desempeño.

A través de este enfoque más simple y agnóstico, los investigadores crearon un modelo más portátil y no tan exigente. Los experimentos se hicieron en una GPU Nvidia Geforce RTX3090 con 24GB RAM y el procesamiento solo costó $0.11 dólares por hora. Este método puede ser muy efectivo para negocios que usen conjuntos de datos pequeños.

Otra solución podría ser Sophia, un método propuesto por la Universidad Stanford. Este se enfoca en ahorrar costos del entrenamiento y plantea una combinación de dos trucos: estimación de curvatura y clipping. La primera, calcula la carga de trabajo del modelo LLM. Sin embargo, este proceso tiende a ser muy costoso. Por fortuna, los investigadores hallaron una forma para optimizarlo y reducir costos.

Sin embargo, esto causaba que la estimación fuera menos precisa. Es aquí donde entra el segundo truco de optimización: clipping. Este plantea un “límite” o una estimación de curvatura máxima. De esta forma, los riesgos de cometer errores son menores.

Incluso al excluir sus costos de desarrollo, el implementar modelos de lenguaje extenso (LLM) puede ser extremadamente costoso. Desde su entrenamiento hasta su mantenimiento, la inversión de dinero y tiempo hace que el potencial de esta tecnología solo esté disponible para aquellas compañías con el suficiente capital. Si se desea conseguir una verdadera democratización de la inteligencia artificial (IA), los grandes pioneros a la cabeza de la carrera deben garantizar la asequibilidad de esta tecnología optimizando su consumo de energía. Esto puede lograrse por medio de procesos como la destilación de conocimientos (KD) y la mezcla de estimación de curvatura y clipping.

Sobre ManageEngine

Como la división de administración de TI de Zoho Corporation, ManageEngine se concentra en brindar soluciones flexibles que funcionen para todo tipo de empresas independientemente de su tamaño o presupuesto.

ManageEngine desarrolla software de administración integral de TI enfocándose principalmente en hacer su trabajo más fácil. Nuestros más de 120 productos galardonados y herramientas gratuitas cubren todo lo que su TI necesita. Desde software para la administración de redes y dispositivos hasta seguridad y mesa de ayuda, alineamos TI con el negocio con un enfoque global integral para optimizar su TI.

Su visión es ser líderes en la transformación digital del mercado de distribución de TI, a través de la creación del nuevo modelo DaaS (distribución como servicio) para ofrecerle a sus partners la mejor experiencia del negocio.

A su vez, como eslabón clave en la distribución de tecnología facilita los negocios de los canales en la región, a través de la creación de oportunidades de negocio, programas de marketing, consultoría de preventa y postventa, flexibilidad financiera y capacitación continua. Licencias OnLine es el aliado principal de los Fabricantes de Tecnología, y el partner ideal para las empresas prestadoras de servicio que distribuyen las soluciones.

Brochure

Otras noticias de ManageEngine