Mise à l'échelle des algorithmes de formation perturbative compatibles avec le matériel

Avec le développement rapide de la technologie de l’intelligence artificielle (IA), les réseaux de neurones artificiels (Artificial Neural Networks, ANNs) ont obtenu des réalisations significatives dans de multiples domaines. Cependant, les méthodes traditionnelles d’entraînement des réseaux de neurones, en particulier l’algorithme de rétropropagation (Backpropagation), posent de nombreux défis en termes de mise en œuvre matérielle. Bien que l’algorithme de rétropropagation soit efficace dans les logiciels, sa mise en œuvre matérielle nécessite que le chemin de calcul soit réversible, que chaque neurone dispose d’une mémoire importante et que la dérivée de la fonction d’activation soit calculée, conditions difficiles à satisfaire dans le matériel. De plus, le matériel traditionnel en semi-conducteurs à oxyde métallique complémentaire (CMOS) consomme énormément d’énergie lors de l’entraînement et du déploiement de ces algorithmes, ce qui limite leur extensibilité et leur application généralisée.

Pour résoudre ces problèmes, les chercheurs ont commencé à explorer des solutions matérielles inspirées du cerveau, en particulier le matériel neuromorphique analogique (analog neuromorphic hardware). Ce type de matériel peut réaliser des capacités de calcul similaires à moindre coût énergétique, mais la manière de réaliser un entraînement efficace sur ce matériel analogique reste un défi. Les méthodes d’entraînement par perturbation (Perturbative Training Methods) sont proposées comme une alternative, en estimant le gradient de la fonction de perte par des perturbations aléatoires des paramètres du réseau, évitant ainsi la complexité matérielle de la rétropropagation. Cependant, les méthodes d’entraînement par perturbation sont considérées comme peu extensibles pour les problèmes à grande échelle, car le temps d’estimation du gradient augmente linéairement avec le nombre de paramètres du réseau.

L’objectif de cette étude est d’explorer un cadre d’entraînement par perturbation appelé descente de gradient multiplexée (Multiplexed Gradient Descent, MGD) et de vérifier son extensibilité et son efficacité dans les réseaux à grande échelle. MGD définit un ensemble de constantes de temps liées au processus de perturbation, permettant d’estimer efficacement le gradient dans le matériel et d’être compatible avec les accélérateurs d’optimisation existants (comme la méthode de momentum), offrant ainsi une solution pratique pour les futurs systèmes de calcul neuromorphiques.

Source de l’article

Cet article est co-écrit par B. G. Oripov, A. Dienstfrey, A. N. McCaughan et S. M. Buckley, respectivement issus du département de physique de l’Université du Colorado à Boulder et du National Institute of Standards and Technology (NIST). L’article a été publié le 17 avril 2025 dans la revue APL Machine Learning, sous le titre “Scaling of Hardware-Compatible Perturbative Training Algorithms”, faisant partie du thème spécial “Technologies neuromorphiques pour l’IA matérielle innovante”. Le DOI de l’article est 10.10635.0258271.

Processus et résultats de la recherche

1. Processus de recherche

a) Introduction et extension du cadre MGD

MGD est un cadre d’entraînement par perturbation adapté au matériel, visant à estimer le gradient de la fonction de perte par des perturbations aléatoires des paramètres du réseau. Contrairement aux méthodes de perturbation traditionnelles, MGD introduit trois constantes de temps, correspondant respectivement au temps de mise à jour des poids, au temps de mise à jour des échantillons et au temps de mise à jour des perturbations. En ajustant ces constantes de temps, MGD peut réaliser diverses techniques de descente de gradient numérique, telles que la descente de coordonnées (Coordinate Descent) et l’approximation stochastique par perturbation simultanée (Simultaneous Perturbation Stochastic Approximation, SPSA).

Dans cette étude, les auteurs étendent le cadre MGD pour inclure deux méthodes : la perturbation des poids (Weight Perturbation) et la perturbation des nœuds (Node Perturbation), et discutent des avantages et des inconvénients de chaque méthode. La perturbation des poids perturbe directement chaque poids, tandis que la perturbation des nœuds perturbe l’entrée de la fonction d’activation et calcule la mise à jour des poids via une rétropropagation monocouche.

b) Analyse du temps d’estimation du gradient et du temps d’entraînement

Les auteurs ont étudié, via des simulations, le temps d’estimation du gradient et le temps d’entraînement de MGD en fonction de la taille du réseau et de la complexité de la tâche. Les expériences ont utilisé une architecture de réseau neuronal comprenant six couches convolutives et trois couches entièrement connectées, avec une tâche de classification basée sur le jeu de données FashionMNIST. La taille du réseau a été modifiée en ajustant la profondeur (d) de chaque couche, avec un nombre de paramètres allant de quelques milliers à plusieurs millions.

Pour mesurer la précision de l’estimation du gradient, les auteurs ont généré une nouvelle estimation du gradient à chaque itération et l’ont comparée au gradient réel calculé par rétropropagation. Les résultats montrent que la perturbation des nœuds est supérieure à la perturbation des poids en termes de temps d’estimation du gradient, car elle implique un nombre moindre de perturbations indépendantes.

c) Entraînement du réseau et optimisation

Les auteurs ont également étudié les performances de MGD dans l’entraînement de réseaux à grande échelle. Les résultats expérimentaux montrent que MGD peut atteindre la même précision de test que la rétropropagation sans nécessiter de moyenne de gradient. De plus, les auteurs ont vérifié la compatibilité de MGD avec les algorithmes d’optimisation existants (comme la méthode de momentum et l’optimiseur Adam), démontrant l’efficacité de ces optimiseurs dans le cadre MGD.

2. Principaux résultats

a) Précision de l’estimation du gradient

Les résultats expérimentaux montrent que l’estimation du gradient par MGD peut se rapprocher avec précision du gradient réel après un nombre suffisant d’itérations. La perturbation des nœuds est nettement supérieure à la perturbation des poids en termes de temps d’estimation du gradient, en particulier dans les réseaux à grande échelle. Plus précisément, le temps d’estimation du gradient pour la perturbation des poids augmente linéairement avec le nombre de paramètres du réseau, tandis que celui pour la perturbation des nœuds est proportionnel à la racine carrée du nombre de paramètres.

b) Extensibilité du temps d’entraînement

Bien que le temps d’estimation du gradient augmente avec la taille du réseau, le temps d’entraînement ne suit pas la même tendance linéaire. Les expériences montrent que MGD peut augmenter le temps d’entraînement de moins d’un ordre de grandeur lorsque la taille du réseau augmente de trois ordres de grandeur. Cela indique que l’extensibilité de MGD dans les réseaux à grande échelle est meilleure que prévu.

c) Compatibilité avec les optimiseurs

Les auteurs ont démontré la compatibilité de MGD avec la méthode de momentum et l’optimiseur Adam. Les résultats expérimentaux montrent que l’utilisation de l’optimiseur Adam peut réduire significativement le temps d’entraînement, prouvant davantage le potentiel de MGD dans le matériel réel.

Conclusion et signification

Cette étude montre que MGD, en tant que méthode d’entraînement par perturbation compatible avec le matériel, peut entraîner efficacement des réseaux à grande échelle et atteindre une précision comparable à celle de la rétropropagation. Les performances d’extensibilité de MGD remettent en question l’idée que les méthodes de perturbation traditionnelles sont peu extensibles pour les problèmes à grande échelle, offrant ainsi une solution pratique pour les futurs systèmes de calcul neuromorphiques.

Points forts de la recherche

  1. Validation de l’extensibilité : Les performances d’extensibilité de MGD dans les réseaux à grande échelle sont excellentes, remettant en question les limites des méthodes de perturbation traditionnelles.
  2. Compatibilité matérielle : MGD peut être efficacement mis en œuvre dans le matériel et est compatible avec les algorithmes d’optimisation existants, offrant un large potentiel d’application.
  3. Comparaison entre perturbation des nœuds et perturbation des poids : La perturbation des nœuds est supérieure à la perturbation des poids en termes de temps d’estimation du gradient, en particulier dans les réseaux à grande échelle.

Autres informations utiles

Les auteurs ont également exploré le potentiel d’optimisation de MGD sur différentes plateformes matérielles. Par exemple, pour les mémoires non volatiles à vitesse d’écriture lente, le nombre de mises à jour des poids peut être réduit en augmentant le temps d’intégration du gradient, prolongeant ainsi la durée de vie du matériel. De plus, la flexibilité du cadre MGD lui permet de s’adapter à différentes contraintes et exigences matérielles.

Cette étude offre une solution efficace et extensible pour l’entraînement du matériel neuromorphique, avec une valeur scientifique et un potentiel d’application importants.