Benchmark de IA: Nvidia domina, pero Graphcore se impone

| |

Nvidia con la GPU A100 de dos años también domina en la sexta ronda del MLPerf de referencia de IA establecido. Pero la competencia nunca duerme.

El benchmark MLPerf para inteligencia artificial ha sido liderado por MLCommons desde 2018. La prueba está destinada a permitir una comparación transparente de diferentes arquitecturas de chips y variantes del sistema en los cálculos de IA.

Las empresas participantes incluyen fabricantes de chips como Nvidia, Google, Graphcore y Habana Labs de Intel, así como fabricantes de servidores como Inspur, Fujitsu y Lenovo. Un total de 24 empresas participaron con sus productos en el benchmark de capacitación MLPerf 2.0 de este año.

Benchmark de IA: Nvidia domina, pero Graphcore se impone
El hardware de Nvidia domina las presentaciones de MLPerf.

El año pasado, un Graphcore IPU-POD16 con 16 chips MK2000 venció a un sistema Nvidia DGX A100 640 en el entrenamiento de un modelo ResNet 50 por primera vez, por 60 segundos. Sin embargo, Nvidia consideró inapropiada la comparación, ya que su propio sistema solo tiene ocho chips instalados. Así lo mostró Nvidia en el MLPerf Training 1.1. el mejor rendimiento por chip.

MLPerf Training 2.0: Nvidia posee el 90 por ciento

Los sistemas de Nvidia también dominan en la evaluación comparativa de este año: el 90 por ciento de todas las presentaciones en la evaluación comparativa se basan en el hardware de IA de Nvidia. Los tres contendientes restantes son TPUv4 de Google, la nueva IPU BOW de Graphcore y el chip Habana Labs Gaudi 2 de Intel.

Publicación Destacada

Todos los sistemas Nvidia se basan en la GPU Nvidia A100 Tensor Core de dos años en la versión de 80 gigabytes y participan en los ocho puntos de referencia de entrenamiento en una competencia cerrada. Google solo participa en los puntos de referencia RetinaNet y Mask R-CNN, mientras que Graphcore y Habana Labs solo participan en los puntos de referencia BERT y RestNet 50.

Benchmark de IA: Nvidia domina, pero Graphcore se impone
Nvidia participa en todos los puntos de referencia y puntúa con su arquitectura de supercomputadora.

Según Nvidia, el A100 también mantiene su posición de liderazgo en una comparación de rendimiento por chip y es el más rápido en seis de las ocho pruebas.

Benchmark de IA: Nvidia domina, pero Graphcore se impone
Nvidia se ve a sí misma más adelante en el rendimiento por chip. Los puntos de referencia dan la razón a la empresa.

Según la compañía, desde que comenzaron las primeras pruebas en 2018, la plataforma de IA de Nvidia ha multiplicado por 23 el rendimiento del entrenamiento gracias al salto de V100 a A100 y numerosas mejoras de software.

Nvidia ve una de las mayores ventajas de su propia plataforma en su diversidad: incluso las aplicaciones de IA relativamente simples, como hacer preguntas sobre una imagen mediante la entrada de voz, requieren varios modelos de IA.

Los desarrolladores deberían poder diseñar, entrenar, usar y optimizar estos modelos de forma rápida y flexible. Por lo tanto, la diversidad del hardware de IA, es decir, la capacidad de ejecutar cualquier modelo en MLPerf y más allá, y el alto rendimiento son cruciales para desarrollar productos de IA reales.

Nvidia también señala que es la única empresa que puede mostrar un rendimiento real en configuraciones de supercomputadoras. Esto es importante para entrenar grandes modelos de IA como GPT-3 o Megatron Turing NLG.

Graphcore muestra avances en el rendimiento y la disposición a cooperar

El fabricante británico de chips Graphcore entra en la carrera por primera vez con el nuevo BOW-IPU. Con mejores mejoras de hardware y software, Graphcore logra un tiempo de capacitación de 26 a 31 por ciento más rápido en el punto de referencia ResNet 50 y un promedio de 36 a 37 por ciento en el punto de referencia BERT, según el sistema.

Benchmark de IA: Nvidia domina, pero Graphcore se impone
Graphcore mejora el rendimiento de BERT con Bow IPU y mejoras de software.

Por primera vez, una empresa externa también participa en el benchmark con un sistema Graphcore. Baidu envía valores BERT para un Bow-Pod16 y un Bow-Pod64 utilizando el marco de IA PaddlePaddle, que es popular en China.

Los valores alcanzados en la capacitación están al nivel de las presentaciones de Grapcore en el marco interno de PopART. Para Graphcore, esta es una señal de que sus propios chips también pueden lograr buenos resultados en otros marcos.

Benchmark de IA: Nvidia domina, pero Graphcore se impone

Baidu participa por primera vez con pods Graphcore.

Según Graphcore, el nuevo Bow-Pod16 está claramente por delante del servidor DGX-A100 de Nvidia en el benchmark ResNet 50 y ofrece precios competitivos.

Benchmark de IA: Nvidia domina, pero Graphcore se impone
Según Graphcore, sus propios sistemas están al nivel de rendimiento y precio de Nvidia, al menos en las tareas probadas.

Graphcore no quiere competir directamente con Nvidia

En una conferencia de prensa sobre los resultados de MLPerf, Graphcore señala las diferentes arquitecturas de sus propios productos: Nvidia, Google e Intel producen procesadores vectoriales similares, mientras que la IPU de Graphcore es un procesador gráfico.

Por lo tanto, la participación en el benchmark MLPerf debería mostrar principalmente que la IPU de Graphcore puede lograr un rendimiento comparable. Pero el hardware ofrece aún más.

«Sería muy difícil para nosotros simplemente copiar Nvidia y construir sus productos porque Nvidia ya construye las mejores GPU. Cualquiera que construya algo similar tendrá dificultades para distinguirse de Nvidia, así que vamos a hacer algo diferente».

Publicación Destacada

La empresa trabaja con una variedad de clientes que utilizan una variedad de arquitecturas y modelos, incluidos aquellos que otros asistentes a MLPerf aún llaman experimentales, como Vision Transformer. No aparecen en el benchmark.

Benchmark de IA: Nvidia domina, pero Graphcore se impone
Graphcore solo participa en dos puntos de referencia cerrados, pero trabaja con clientes en numerosos modelos.

Asimismo, se sometieron al benchmark abierto MLPerf los resultados de un modelo RNN-T modificado, que fue desarrollado en cooperación con una empresa. Sin embargo, esto difiere del modelo RNN-T en competencia cerrada. El benchmark de IA diseñado como estándar de la industria probablemente no sea lo suficientemente flexible, al menos para la compañía británica.

Un diferenciador clave para GraphCore en comparación con Nvidia es el rendimiento significativamente mejor en la actualidad en Graph Neural Networks, que utilizan tamaños de lote pequeños y requieren un uso dinámico de la memoria.

El modelo EfficientNet se beneficia de las UIP de Graphcore. En ambos casos, la compañía ubica la ventaja sobre las GPU en las diferentes arquitecturas de chips de sus propios productos.

Graphcore también anunció recientemente una cooperación con la startup alemana de inteligencia artificial Aleph Alpha.

Todos los resultados y más información están disponibles en la página web de la Punto de referencia MLCommons MLPerf.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.