Aujourd'hui, seuls les Tesla V100 et Titan V disposent de cœurs tenseurs. Les deux GPU ont 5120 cœurs cuda où chaque cœur peut effectuer jusqu'à 1 opération de multiplication-accumulation en simple précision (par exemple, dans fp32 : x += y * z) par horloge GPU (par exemple, la fréquence PCIe du Tesla V100 est de 1.38Gz).
Chaque noyau tensoriel effectue des opérations sur de petites matrices de taille 4x4. Chaque noyau tensoriel peut effectuer 1 opération de multiplication-accumulation de matrice par 1 horloge GPU. Il multiplie deux matrices fp16 4x4 et ajoute le produit de la multiplication de la matrice fp32 (taille : 4x4) à l'accumulateur (qui est aussi une matrice fp32 4x4).
Il est appelé précision mixte car les matrices d'entrée sont des matrices fp16 mais le résultat de la multiplication et l'accumulateur sont des matrices fp32.
Le nom correct serait probablement 4x4 matrix cores, mais l'équipe marketing de NVIDIA a décidé d'utiliser "tensor cores".