Titre original :

Mixed-signal in-memory matrix-vector multiplication for ultra-low power embedded machine learning

Titre traduit :

Multiplication de vecteur-matrice à signaux mixtes dans la mémoire à très faible consommation pour l’apprentissage machine embarqué

Mots-clés en français :
  • Hardware
  • Traitement en mémoire

  • Systèmes sur puce
  • Apprentissage automatique
  • Réseaux neuronaux (informatique)
  • Circuits intégrés à faible consommation
  • Circuits intégrés analogiques numériques
  • MOS complémentaires
Mots-clés en anglais :
  • Circuit
  • Neural Networks
  • Hardware
  • Artificial Intelligence
  • Cmos
  • In-Memory computing

  • Langue : Anglais
  • Discipline : Electronique, microélectronique, nanoélectronique et micro-ondes
  • Identifiant : 2022ULILN038
  • Type de thèse : Doctorat
  • Date de soutenance : 16/12/2022

Résumé en langue originale

Les applications de l'intelligence artificielle embarquée sont nombreuses et couvrent de multiples domaines, tels que l'électronique grand public, la domotique, la santé et l'industrie. Elles nécessitent des puces dédiées apportant l'intelligence à proximité du capteur tout en maintenant une faible consommation d'énergie. Bien qu'il existe de nombreux types de réseaux neuronaux (Neural Networks - NN), ils reposent tous sur les mêmes calculs de base, à savoir des multiplications matricielles et vectorielles (MMV) composées d'opérations de multiplication et d'accumulation (MAC). L'optimisation de l'efficacité énergétique des opérations MAC est un excellent levier pour réduire la consommation énergétique globale. Dans une architecture Von Neumann classique, la limitation liée à l'accès aux données plafonne l'efficacité à 10 TOPS/W en considérant une consommation d'énergie de 50 fJ/byte pour le déplacement des données. Le traitement en mémoire (In-Memory Computing - IMC) permet de réduire la surcharge énergétique liée à l'accès aux données en les traitant à proximité de l'endroit où elles sont stockées. Cette thèse analyse l'état de l'art des architectures NN et les travaux pour la détection d'activité vocale (Vocal Activity Detection - VAD) et le repérage de mots-clés (Keyword Spotting - KWS), pour montrer que la consommation d'énergie et la précision sont des paramètres plus importants que le débit pour les applications embarquées. En outre, l'analyse de l'état de l'art de l'IMC montre que le temps disponible pour effectuer les opérations du NN peut être avantageusement exploité. Ce travail présente un concept d'IMC analogique basé sur le temps et le courant, où des sources de courant chargent/déchargent une ligne capacitive pendant un temps pondéré par le produit de deux nombres, réalisant ainsi des opérations MAC multi-bits à travers le temps. Une mise en œuvre de l'architecture proposée dans une technologie FDSOI de 28 nm est présentée. Le prototype de circuit intégré intègre 4 neurones avec 100 entrées et des entrées et poids de 5 bits. La structure exécute le MMV multi-bits en utilisant la méthode IMC analogique proposée, basée sur le temps et le courant, avec une latence maximale de 4,5 µs, parfaitement adaptée à la plupart des applications embarquées. L'efficacité énergétique mesurée permet d'envisager une efficacité supérieur à 50 TOPS/W s'il est déployé sur un réseau de 100 neurones.

Résumé traduit

The applications for embedded artificial intelligence are numerous and cover multiple domains, such as consumer electronics, home automation, health, and industry. They require dedicated chips bringing intelligence close to the sensor while maintaining a low energy consumption. Although many types of neural networks (NN) exist, they all rely on the same basic computations which are Matrix-Vector Multiplications (MVM) composed of Multiply-and-Accumulate (MAC) operations. Optimizing the energy efficiency of MAC operations is a great lever to reduce global power consumption. In a classic Von Neumann architecture, the limitation implied by data access caps the efficiency at 10 TOPS/W considering a 50 fJ/byte energy consumption for data movement. In-memory computing (IMC) helps reduce the energy overhead for accessing data by processing them close to where they are stored. This thesis analyses the state-of-the-art NN architectures and the works for Voice Activity Detection (VAD) and Keyword Spotting (KWS), to show that energy consumption and accuracy are more important parameters than throughput for embedded applications. Furthermore, analysis of the state-of-the-art of IMC shows that the available time to perform NN operations can be advantageously leveraged. This work presents a time- and current-based analog IMC concept, where current sources charge/discharge a capacitive line during a time pondered by the product of two numbers, therefore performing multi-bit MAC operations through time. An implementation of the proposed architecture in a 28 nm FDSOI technology is presented. The integrated circuit prototype integrates 4 neurons with 100 inputs and 5-bit inputs and weights. The structure performs the multi-bit MVM using the proposed time- and current-based analogue IMC method within a maximum latency of 4.5 µs, perfectly suitable with most embedded applications. The measured energy efficiency allows envisioning > 50 TOPS/W if deployed over a 100-neuron array.

  • Directeur(s) de thèse : Kaiser, Andreas - Frappé, Antoine
  • Président de jury : O'Connor, Ian
  • Membre(s) de jury : Beigné, Édith - Saïghi, Sylvain - Clerc, Sylvain - Cathelin, Andreia - Larras, Benoît
  • Rapporteur(s) : O'Connor, Ian - Lian, Yong
  • Laboratoire : Institut d'Electronique, de Microélectronique et de Nanotechnologie
  • École doctorale : École doctorale Sciences de l’ingénierie et des systèmes (Lille)

AUTEUR

  • Hérissé, Kévin
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès réservé à l'ensemble de la communauté universitaire jusqu'au 01/01/2025