Crear
Nuevo algoritmo de Google reduce el uso de memoria seis veces. ¿Está condenado el hardware caro?

Nuevo algoritmo de Google reduce el uso de memoria seis veces. ¿Está condenado el hardware caro?

Arkadiy Andrienko

Google Research ha publicado un artículo sobre TurboQuant, un algoritmo que reduce la memoria requerida para cargas de trabajo de IA al menos seis veces, todo sin comprometer la precisión de respuesta y sin necesidad de entrenamiento adicional del modelo.

Durante la generación de texto, los modelos dependen de la llamada caché KV, un búfer de memoria que almacena datos del mecanismo de atención previamente calculados, lo que les permite evitar recalcularlo en cada paso. Pero cuanto más largo es el contexto, más crece esta caché. En un cierto punto, comienza a consumir decenas de gigabytes de memoria, y hasta las potentes tarjetas gráficas con toneladas de VRAM quedan impotentes. Los métodos de cuantización tradicionales se han utilizado durante mucho tiempo para comprimir la caché, pero tienen un inconveniente oculto: junto con los datos comprimidos, también debes almacenar las llamadas constantes de cuantización, esencialmente una tabla de búsqueda, similar a lo que utilizan los archiveros ZIP o RAR.

Los investigadores probaron TurboQuant en modelos de código abierto como Gemma y Mistral, utilizando suites de referencia de contexto largo como LongBench, Needle In A Haystack, ZeroSCROLLS, RULER y L-Eval. En tareas simples, el algoritmo entregó resultados impecables, reduciendo el tamaño de la caché KV al menos seis veces. En escenarios más complejos, como la respuesta a preguntas, generación de código y resumir, el margen no fue tan dramático, pero aún superó el algoritmo de compresión KIVI existente. En aceleradores NVIDIA H100, la versión de 4 bits de TurboQuant demostró un aumento de rendimiento de ocho veces.

El mercado ya ha reaccionado al anuncio, con las acciones de los principales fabricantes de memoria sufriendo una caída, reflejando un cambio en las expectativas de los inversores. Si la adopción generalizada de TurboQuant reduce los requisitos de VRAM, las empresas podrían reducir costos de hardware o expandir las ventanas de contexto del modelo sin necesidad de aumentar la potencia de cálculo.

New Google algorithm cuts memory usage sixfold. Is expensive hardware doomed?

Los autores del estudio enfatizan que su trabajo no es solo una solución de ingeniería, es una forma de frenar el consumo de memoria en un momento en que la memoria se está volviendo cada vez más escasa.

¿Puede un algoritmo como este realmente ayudar a poner fin a la "crisis de memoria" en el mercado, o la escasez seguirá siendo un problema para los usuarios cotidianos sin importar qué trucos de software se le apliquen? Comparte tus pensamientos en los comentarios.

    Sobre el autor
    Comentarios0