Apple busca impulsar Inteligencia Artificial mediante el uso de almacenamiento avanzado
Inteligencia Artificial en dispositivos Apple con capacidad de memoria limitada
La creciente aplicación de la Inteligencia Artificial (IA) en diversos dispositivos como teléfonos inteligentes y portátiles no ha pasado desapercibida para Apple, quien ha comenzado a experimentar con modelos de lenguaje colosal (LLM), los cuales son la base de la mayoría de las aplicaciones de IA actuales. La compañía busca llevar estos modelos a dispositivos con capacidad de memoria limitada como los iPhone y MacBook.
Estrategia de Apple para implementar la IA en dispositivos con recursos escasos
Superar las limitaciones de memoria y recursos de computación en ciertos dispositivos es un desafío significativo para la implementación de los LLM en iPhones y MacBooks. Para abordar este problema, Apple desea almacenar los LLM en la memoria NAND Flash, específicamente en el almacenamiento del dispositivo, donde suele haber más capacidad. El iPhone 15 Pro, por ejemplo, ofrece 256 GB de capacidad en su modelo base.
La propuesta de Apple se basa en crear un modelo de costes de inferencia en consonancia con el comportamiento de la memoria NAND Flash. Este enfoque estaría optimizado en dos aspectos clave: la reducción del volumen de datos transferidos desde la memoria flash y la lectura de datos en fragmentos más grandes y contiguos. En lugar de almacenar los pesos del modelo en la memoria DRAM, Apple pretende utilizar la memoria flash y extraerlos a la DRAM solo cuando sea necesario.
Las técnicas clave del enfoque de Apple: «windowing» y «row-column bundling»
El enfoque basado en la memoria flash de Apple incluye dos técnicas principales: «windowing» y «row-column bundling«. La técnica de «windowing» reduce la transferencia de datos mediante la reutilización de neuronas previamente activadas. Por otro lado, el «row-column bundling» se adapta a las capacidades de acceso secuencial de datos de la memoria flash y aumenta el tamaño de los fragmentos de datos leídos de la memoria flash.
Como resultado, estos métodos permiten ejecutar modelos de hasta el doble del tamaño de la memoria DRAM disponible, logrando un incremento en la velocidad de inferencia de 4 a 5 veces en la CPU y de 20 a 25 veces en la GPU, respectivamente. Esta integración allana el camino para la implementación eficaz de LLM en dispositivos con memoria limitada.