Flex Logix affirme que le problème de la mémoire DRAM de Deep Learning est résolu


Architecture d'une mosaïque NMAX512. "Src =" http://spectrum.ieee.org/image/MzE2NDg0Ng.jpeg

Image: Flex Logix

Architecture d'une tuile NMAX512.

Flex Logix, basé à Mountain View, avait commencé à commercialiser une nouvelle architecture pour les matrices de portes programmables sur site (eFPGA). Mais après quelques recherches, l'un des fondateurs, Cheng C. Wang, s'est rendu compte que la technologie pouvait accélérer les réseaux de neurones.

Un réseau de neurones est constitué de connexions et de «poids» indiquant la force de ces connexions. Une bonne puce d’IA nécessite deux choses, explique l’autre fondateur, Geoff Tate. L’un est constitué de nombreux circuits qui effectuent le calcul «d’inférence» critique, appelé multiplier et accumuler. «Mais ce qui est encore plus difficile, c’est que vous devez être très bon pour importer tous ces poids, afin que les multiplicateurs aient toujours les données dont ils ont besoin pour faire les calculs nécessaires. [Wang] a réalisé que la technologie que nous avons dans l'interconnexion de notre FPGA, il a pu s'adapter pour créer une architecture extrêmement performante pour charger des poids rapidement et efficacement, offrant des performances élevées et une consommation réduite. "

La nécessité de charger rapidement des millions de poids dans le réseau explique pourquoi les systèmes d'IA fonctionnant entre des milliards et des dizaines de milliards d'opérations par seconde nécessitent autant de puces DRAM. Chaque broche d’une puce DRAM peut fournir un maximum d’environ 4 gigabits par seconde. Vous avez donc besoin de plusieurs puces pour atteindre les 100 Gb / s nécessaires.

En développant la technologie originale pour les FPGA, Wang a noté que ces puces étaient interconnectées à environ 80% par zone. Il a donc recherché une architecture qui permettrait de réduire cette zone et de permettre plus de logique. Avec ses collègues de l'UCLA, il a adapté une sorte d'architecture de télécommunications appelée réseau plié-Beneš. Cela a permis de créer une architecture FPGA qui ressemble à un tas de mosaïques de logique et de mémoire SRAM.

Flex Logix indique que la diffusion de la mémoire SRAM dans la puce accélère les calculs et réduit la consommation d'énergie. "Src =" http://spectrum.ieee.org/image/MzE2NDg0Nw.jpeg

Image: Flex Logix

Flex Logix indique que la diffusion de la mémoire SRAM dans la puce accélère les calculs et réduit la puissance.

La distribution de la mémoire SRAM dans ce schéma d’interconnexion spécialisé finit par avoir un impact important sur le problème de bande pbadante DRAM de Deep Learning, explique Tate. "Nous déplaçons la bande pbadante DRAM avec SRAM sur la puce", déclare-t-il.

Les tuiles NMAX peuvent être jointes sur une seule puce pour accélérer les calculs. "src =" http://spectrum.ieee.org/image/MzE2NDg0OA.jpeg

Image: Flex Logix

Les tuiles NMAX peuvent être jointes sur une seule puce pour accélérer les calculs.

Les plaques de l’offre d’intelligence artificielle de Flex Logix, appelée NMAX, occupent moins de 2 millimètres carrés grâce à la technologie 16 nanomètres de TSMC. Chaque mosaïque est composée d'un ensemble de cœurs qui multiplient et accumulent les calculs critiques, d'une logique programmable pour contrôler le traitement et le flux de données, ainsi que d'une mémoire SRAM. Trois types différents de technologie d'interconnexion sont impliqués. L'une relie toutes les pièces de la tuile. Une autre connecte la vignette à une mémoire SRAM supplémentaire située entre les mosaïques et à la mémoire DRAM externe. Et le troisième relie les tuiles adjacentes ensemble.

Il est difficile de trouver de vraies comparaisons de pommes à pommes dans l'apprentissage en profondeur. Cependant, l’badyse de Flex Logix comparant une baie simulée de 6 x 6 tuiles avec une puce DRAM à une puce Nvidia Tesla T4 avec huit mémoires DRAM montrait que la nouvelle architecture identifiait 4 600 images par seconde contre 3 920. La matrice NMAX de même taille a atteint 22 billions d’opérations par seconde lors d’un test de traitement vidéo en temps réel appelé YOLOv3 utilisant un dixième de la bande pbadante DRAM des autres systèmes.

Les dessins des premières puces NMAX seront envoyés à la fonderie pour être fabriqués au cours du second semestre de 2019, explique Tate.

Flex Logix compte parmi ses clients Boeing pour son produit FPGA intégré à haut débit. Mais le FPGA intégré est difficile à vendre comparé aux réseaux de neurones, admet Tate. «Le FPGA intégré est une bonne affaire, mais l'inférence le dépbadera probablement très rapidement», déclare Tate.

[ad_2]
Source link