El movimiento audaz de Apple: por qué los chips de Google están reemplazando a Nvidia en IA

Apple ha revelado en un informe de investigación reciente cómo entrenó sus últimos modelos de IA generativa utilizando los aceleradores de redes neuronales de Google en lugar del hardware más popular de Nvidia.

El artículo titulado «Modelos de lenguaje de la Fundación Apple Intelligence»[PDF] detalla cómo Apple desarrolló sus modelos de lenguaje, desde el entrenamiento hasta la inferencia. Estos modelos, conocidos como redes neuronales, son responsables de convertir las consultas de los usuarios en texto e imágenes y forman la base de las funciones de Apple Intelligence integradas en los sistemas operativos de Apple. Estas características incluyen resúmenes de texto y sugerencias de redacción de mensajes.

Si bien muchas organizaciones de inteligencia artificial prefieren las GPU de Nvidia como la H100, Apple ha optado por el silicio Unidad de procesamiento tensor (TPU) de Google. Esta decisión no es del todo sorprendente considerando la tensa relación de larga data de Apple con Nvidia. Apple parece no tener ningún interés en reconciliar relaciones con Nvidia, ni siquiera en entrenar sus Apple Foundation Models (AFM).

Apple ignoró los chips GPU Radeon de AMDEl movimiento audaz de Apple: por qué los chips de Google están reemplazando a Nvidia en IA 1

Lo sorprendente es que Apple no eligió las GPU Radeon de AMD, que ha suministrado chips para dispositivos Mac en el pasado. En cambio, Apple eligió los procesadores TPU v4 y TPU v5 de Google para entrenar sus AFM. Esta elección está en línea con el reciente crecimiento de Google en el uso de TPU, lo que convierte a la empresa en uno de los tres principales proveedores del mercado junto con Nvidia e Intel.

El modelo de IA del lado del servidor de Apple, AFM Server, se entrenó en 8.192 chips TPU v4, mientras que AFM-on-Device utilizó 2.048 procesadores TPU v5 más nuevos. A modo de comparación, Nvidia dice que entrenar un modelo de IA de clase GPT-4 requiere alrededor de 8.000 GPU H100. Esto sugiere que, según la experiencia de Apple, la TPU v4 es aproximadamente equivalente a la H100 de Nvidia en términos de la cantidad de aceleradores necesarios.

Apple afirma que sus modelos superan a algunos de Meta, OpenAI, Anthropic e incluso al propio Google. Sin embargo, el artículo de investigación no proporciona especificaciones detalladas para el servidor AFM. Sin embargo, destaca que AFM-on-Device tiene casi tres mil millones de parámetros y está optimizado para una cuantificación de menos de cuatro bits en promedio por razones de eficiencia.

Calificación humana de AppleEl movimiento audaz de Apple: por qué los chips de Google están reemplazando a Nvidia en IA 2

Apple prefiere las revisiones humanas a los puntos de referencia estandarizados porque cree que son más consistentes con la experiencia del usuario. En las pruebas, Apple presentó a personas reales respuestas de diferentes modelos y les pidió que eligieran el mejor. Según Apple, los usuarios a menudo prefieren sus modelos a los de la competencia. Sin embargo, el documento carece de detalles sobre las indicaciones y respuestas, lo que hace que los lectores tomen las afirmaciones de Apple al pie de la letra.

El modelo AFM en dispositivo de Apple generalmente ocupó el segundo o tercer lugar, superando a modelos como Gemma 7B, Phi 3 Mini y Mistral 7B, pero no a LLaMa 3 8B. El documento no proporciona ninguna comparación con el GPT-4o Mini. El servidor AFM no pudo seguir el ritmo de GPT-4 y LLaMa 3 70B y probablemente tampoco funcionará bien contra GPT-4o y LLaMa 3.1 405B.

Apple justifica su desempeño diciendo que AFM-on-Device superó a todos los modelos pequeños para la herramienta de resumen en Apple Intelligence, a pesar de que fue el modelo más pequeño probado. Sin embargo, el documento no muestra datos similares para otras herramientas, lo que deja lagunas en la evaluación.

Apple afirma haber logrado un gran éxito en la creación de contenido seguro. Según el documento, los dispositivos y servidores AFM emitieron respuestas maliciosas el 7,5 por ciento y el 6,3 por ciento de las veces, respectivamente, mientras que otros modelos lo hicieron al menos el 10 por ciento de las veces. Mistral 7N y Mixtral 8x22B fueron los peores infractores, con tasas de respuesta dañina del 51,3 por ciento y 47,5 por ciento, respectivamente.

La decisión de Apple de utilizar chips TPU de Googlepatatas fritas de manzana

La decisión de utilizar las TPU de Google en lugar de las GPU de Nvidia podría deberse a la necesidad de eficiencia y escalabilidad de Apple. Los TPU están diseñados para tareas de aprendizaje automático de alto rendimiento, y la experiencia de Google en inteligencia artificial y centros de datos probablemente proporcione a Apple una infraestructura sólida para entrenar sus modelos. Esta asociación también resalta la naturaleza competitiva del mercado de hardware de IA, donde las empresas exploran diferentes opciones para encontrar la mejor solución para sus necesidades.

La decisión de Apple de utilizar el hardware de Google a pesar de las críticas previas subraya un enfoque pragmático hacia las asociaciones tecnológicas. La atención se centra en utilizar las mejores herramientas disponibles para lograr los resultados que desea, incluso si eso significa trabajar con un competidor. Esta decisión está en línea con la estrategia más amplia de Apple de integrar funciones avanzadas de IA en sus productos, mejorar la experiencia del usuario y mantener su ventaja competitiva en el mercado.

El énfasis del artículo en las evaluaciones humanas sobre los puntos de referencia sugiere que Apple valora el rendimiento en el mundo real y la satisfacción del usuario. Al involucrar a usuarios reales en el proceso de evaluación, Apple quiere garantizar que sus modelos de IA brinden beneficios prácticos e interacciones intuitivas. Este enfoque refleja una filosofía centrada en el usuario que prioriza mejoras concretas sobre métricas de rendimiento teóricas.

Si bien la falta de comparaciones detalladas y la dependencia de las pruebas internas de Apple pueden generar escepticismo, la transparencia general al revelar el proceso de capacitación y la selección de hardware proporciona información valiosa sobre la estrategia de desarrollo de IA de Apple. El enfoque en la seguridad y la minimización de resultados dañinos es particularmente notable ya que aborda una cuestión crítica en el uso de tecnologías de IA.

El futuro de los chips de Apple y GoogleEl movimiento audaz de Apple: por qué los chips de Google están reemplazando a Nvidia en IA 3

De cara al futuro, la colaboración de Apple con Google y el uso de hardware TPU podrían allanar el camino para mayores avances en las capacidades de IA. A medida que los modelos de IA se integran cada vez más en los dispositivos cotidianos, garantizar su confiabilidad, seguridad y eficiencia es de suma importancia. Los continuos esfuerzos de investigación y desarrollo de Apple en esta área muestran que la compañía quiere superar los límites de lo que es posible con la IA y, en última instancia, brindar a los usuarios tecnologías más inteligentes y con mayor capacidad de respuesta.

En conclusión, el examen detallado de Apple de su proceso de capacitación en IA utilizando las TPU de Google destaca un enfoque estratégico y centrado en el usuario para desarrollar modelos de lenguaje avanzados. El documento proporciona información sobre las complejas decisiones y consideraciones involucradas en la creación de sistemas de inteligencia artificial que mejoren las experiencias de los usuarios y al mismo tiempo mantengan altos estándares de seguridad y eficiencia. A medida que el panorama de la IA continúa evolucionando, los conocimientos e innovaciones de Apple probablemente desempeñarán un papel importante en la configuración del futuro de las tecnologías inteligentes.

Compartelo!
Deja un comentario