Coût approximatif de l'accès aux différents caches et à la mémoire principale ?

Question

Coût approximatif de l'accès aux différents caches et à la mémoire principale ?

Demandé el 3 de Novembre, 2010: Quand la question a-t-elle été
16525 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Quelqu'un peut-il me donner le temps approximatif (en nanosecondes) pour accéder aux caches L1, L2 et L3, ainsi qu'à la mémoire principale sur les processeurs Intel i7 ?

Bien qu'il ne s'agisse pas spécifiquement d'une question de programmation, la connaissance de ce type de détails sur la vitesse est nécessaire pour certains défis de programmation à faible latence.

Demandé el 3 de Novembre, 2010 par Ted Graham

3 votes

mechanical-sympathy.blogspot.com/2013/02/

Commenté el 17 de Mai, 2013 par Beachhouse

1 votes

Comment convertir les ns en cycles ? Si je divise simplement 100 ns par 2,3 GHz, j'obtiens 230 cycles. Est-ce correct ?

Commenté el 17 de Décembre, 2014 par Nathan

6 votes

Je suis curieux : dans quelle situation le cache L3 distant est-il plus lent que la DRAM distante ? Le chiffre ci-dessus indique qu'il peut être 1,6 fois plus lent.

Commenté el 13 de Décembre, 2015 par netvope

Afficher 3 autres commentaires

Answer 1

5 Réponses

Answer 2

221voto

Andrey Points 36869

Des chiffres que tout le monde devrait connaître

           0.5 ns - CPU L1 dCACHE reference
           1   ns - speed-of-light (a photon) travel a 1 ft (30.5cm) distance
           5   ns - CPU L1 iCACHE Branch mispredict
           7   ns - CPU L2  CACHE reference
          71   ns - CPU cross-QPI/NUMA best  case on XEON E5-46*
         100   ns - MUTEX lock/unlock
         100   ns - own DDR MEMORY reference
         135   ns - CPU cross-QPI/NUMA best  case on XEON E7-*
         202   ns - CPU cross-QPI/NUMA worst case on XEON E7-*
         325   ns - CPU cross-QPI/NUMA worst case on XEON E5-46*
      10,000   ns - Compress 1K bytes with Zippy PROCESS
      20,000   ns - Send 2K bytes over 1 Gbps NETWORK
     250,000   ns - Read 1 MB sequentially from MEMORY
     500,000   ns - Round trip within a same DataCenter
  10,000,000   ns - DISK seek
  10,000,000   ns - Read 1 MB sequentially from NETWORK
  30,000,000   ns - Read 1 MB sequentially from DISK
 150,000,000   ns - Send a NETWORK packet CA -> Netherlands
|   |   |   |
|   |   | ns|
|   | us|
| ms|

De : Originellement par Peter Norvig :
- http://norvig.com/21-days.html#answers
- http://surana.wordpress.com/2009/01/01/numbers-everyone-should-know/ ,
- http://sites.google.com/site/io/building-scalable-web-applications-with-google-app-engine

Répondu el 3 de Novembre, 2010 par Andrey (36869 Points )

30 votes

@Dave c'est vrai, mais ces chiffres montrent l'ordre de grandeur

Commenté el 3 de Novembre, 2010 par Andrey

8 votes

@Dave, même si le type/vitesse/architecture du cpu est différent, je pense que le timing relatif devrait rester à peu près le même, donc c'est juste une ligne directrice approximative à connaître quand vous codez. Une analyse plus significative devrait être faite par le biais d'un profileur bien sûr...

Commenté el 4 de Janvier, 2012 par xosp7tom

12 votes

Pour avoir une idée du temps que cela représente, Wikipedia mentionne "Une nanoseconde est à une seconde ce qu'une seconde est à 31,7 ans". fr.wikipedia.org/wiki/Nanoseconde

Commenté el 24 de Novembre, 2013 par Only You

Afficher 5 autres commentaires

Answer 3

88voto

Dave Points 3005

Voici un guide d'analyse des performances pour les processeurs i7 et Xeon. J'insiste sur le fait qu'il contient tout ce dont vous avez besoin et plus encore (par exemple, consultez la page 22 pour connaître les durées et les cycles).

En outre, cette page contient des détails sur les cycles d'horloge, etc. Le deuxième lien a servi les numéros suivants :

Core i7 Xeon 5500 Series Data Source Latency (approximate)               [Pg. 22]

local  L1 CACHE hit,                              ~4 cycles (   2.1 -  1.2 ns )
local  L2 CACHE hit,                             ~10 cycles (   5.3 -  3.0 ns )
local  L3 CACHE hit, line unshared               ~40 cycles (  21.4 - 12.0 ns )
local  L3 CACHE hit, shared line in another core ~65 cycles (  34.8 - 19.5 ns )
local  L3 CACHE hit, modified in another core    ~75 cycles (  40.2 - 22.5 ns )

remote L3 CACHE (Ref: Fig.1 [Pg. 5])        ~100-300 cycles ( 160.7 - 30.0 ns )

local  DRAM                                                   ~60 ns
remote DRAM                                                  ~100 ns

EDIT2 :
Le plus important est l'avis figurant sous la table citée, qui dit :

_{"NOTE : CES VALEURS SONT DES APPROXIMATIONS GROSSIÈRES. ILS DÉPENDENT DE DES FRÉQUENCES DES CŒURS ET DES COEURS, DE LA VITESSE DE LA MÉMOIRE, DES PARAMÈTRES DU BIOS, DU NOMBRE DE DIMMS ETC,ETC VOTRE KILOMÉTRAGE PEUT VARIER. "}

EDIT : Je dois souligner qu'en plus des informations sur les cycles et les temps, le document d'Intel ci-dessus aborde beaucoup plus de détails (extrêmement) utiles sur la gamme de processeurs i7 et Xeon (du point de vue de la performance).

Répondu el 3 de Novembre, 2010 par Dave (3005 Points )

1 votes

Une ligne partagée (c'est-à-dire 2 bits valides dans le coeur) signifie qu'elle peut être prise directement de la tranche LLC car elle est garantie d'être propre. Une ligne non partagée signifie qu'il n'y a qu'un seul bit valide dans le noyau et que ce noyau doit être a fouiné pour s'assurer que la ligne est exclusive et non modifiée -- si elle est modifiée alors elle est changée en partagée ; LLC devient alors sale et elle est renvoyée au noyau demandeur comme partagée. Je me trompe peut-être, je sais que le protocole MOESI est différent.

Commenté el 5 de Février, 2019 par Lewis Kelsey

1 votes

C'est certainement le cas pour SnB et Haswell. Nehalem - que ce Xeon utilise - était avant la topologie de bus en anneau et avait un cache unifié, mais je ne vois pas pourquoi le filtre snoop se comporterait différemment dans Nehalem. La section B.3.5.3 du manuel d'optimisation donne ce qui me semble être une description incorrecte (elle se rapporte clairement à Nehalem puisqu'elle parle de la file d'attente globale qui est une caractéristique de Nehalem). Ce document sur Haswell donne une meilleure description (colonne supérieure droite de la page 5). tu-dresden.de/zih/forschung/ressourcen/dateien/ )

Commenté el 6 de Février, 2019 par Lewis Kelsey

0 votes

@LewisKelsey : Cela me surprend aussi, parce que je pensais que la moitié de l'intérêt de l'inclusion de L3 était que L3 pouvait simplement répondre s'il avait une copie valide d'une ligne. Mais n'oubliez pas qu'Intel utilise MESIF ( fr.wikipedia.org/wiki/MESIF_protocol ) pour NUMA, AMD utilise MOESI. Je pense qu'à l'intérieur d'un même socket, MESIF n'est pas vraiment utile car les données proviennent de L3, et non de core->core. Il est donc probablement plus pertinent pour les transferts de cache L3->cache entre les sockets. Je me demande si ce "local L3 hit" est pour une ligne partagée avec un core dans un autre socket ? Cela n'a toujours pas de sens, valide en L3 signifie qu'aucun core n'a d'E/M.

Commenté el 21 de Février, 2019 par Peter Cordes

Afficher 2 autres commentaires

Answer 4

45voto

olibre Points 6069

Coût d'accès aux différentes mémoires dans une jolie page

Véase cette page présentant les diminution du temps de latence de la mémoire entre 1990 et 2020 .

Résumé

Les valeurs ont diminué mais se sont stabilisées depuis 2005

        1 ns        L1 cache
        3 ns        Branch mispredict
        4 ns        L2 cache
       17 ns        Mutex lock/unlock
      100 ns        Main memory (RAM)
    2 000 ns (2µs)  1KB Zippy-compress

Encore des améliorations à apporter, prévisions pour 2020

   16 000 ns (16µs) SSD random read (olibre's note: should be less)
  500 000 ns (½ms)  Round trip in datacenter
2 000 000 ns (2ms)  HDD random read (seek)

Voir aussi d'autres sources

Ce que tout programmeur doit savoir sur la mémoire de Ulrich Drepper (2007)
Ancienne, mais toujours une excellente explication approfondie de l'interaction entre le matériel et le logiciel de la mémoire.
- PDF complet (114 pages)
  - Commentaires sur le LWN à propos de la version PDF
  - Autre les
- Sept posts sur LWN + Commentaires
Poste L'espace infini entre les mots dans codinghorror.com d'après le livre Performance des systèmes : L'entreprise et l'informatique dématérialisée
Cliquez sur chaque processeur listé sur http://www.7-cpu.com/ pour voir les latences L1/L2/L3/RAM/... (par ex. Haswell i7-4770 a L1=1ns, L2=3ns, L3=10ns, RAM=67ns, BranchMisprediction=4ns)
http://idarkside.org/posts/numbers-you-should-know/

Voir aussi

Pour une meilleure compréhension, je recommande l'excellent ouvrage présentation des architectures de cache modernes (juin 2014) à partir de Gerhard Wellein , Hannes Hofmann y Dietmar Fey à Université d'Erlangen-Nürnberg .

Les francophones apprécieront peut-être l'article de SpaceFox comparant un processeur avec un développeur tous deux en attente des informations nécessaires à la poursuite de leur travail.

Répondu el 6 de Janvier, 2015 par olibre (6069 Points )

Answer 5

43voto

user3666197 Points 1

Dans l'intérêt de 2020, il convient d'examiner les prévisions pour 2025 :

Au cours des 44 dernières années de la technologie des circuits intégrés, les processeurs classiques (non quantiques) ont évolué, littéralement et physiquement. "Per Aspera ad Astra . La dernière décennie a montré que le processus classique s'est rapproché de certains obstacles qui n'ont pas de voie physique réalisable.

Number of logical cores peut et peut croître, mais pas plus que O(n^2~3)
Frequency [MHz] a déjà atteint des plafonds difficiles, voire impossibles à contourner, fondés sur la physique
Transistor Count peut et peut croître, mais moins de O(n^2~3) ( puissance, bruit, "horloge")
Power [W] peut se développer, mais les problèmes de distribution d'énergie et de dissipation de la chaleur s'aggraveront.
Single Thread Perf peut se développer, ce qui présente des avantages directs grâce à des empreintes de cache importantes et à des entrées/sorties de mémoire plus rapides et plus larges, ainsi que des avantages indirects grâce au changement de contexte moins fréquent imposé par le système, étant donné que nous pouvons disposer de plus de cœurs pour répartir les autres threads/processus.

_{(Les remerciements vont à Leonardo Suriano et Karl Rupp)}

    2022: Still some improvements, prediction for 2025+
--------------------------------------------------------------------------------
                 0.001 ns light transfer in Gemmatimonas phototrophica bacteriae
      |   |   |   |   |
      |   |   |   | ps|
      |   |   | ns|
      |   | us|        reminding us what Richard FEYNMAN told us:
      | ms|                             "There's a plenty of space
     s|                                                      down there"

-----s.-ms.-us.-ns|----------------------------------------------------------
                 0.1 ns - NOP
                 0.3 ns - XOR, ADD, SUB
                 0.5 ns - CPU L1 dCACHE reference           (1st introduced in late 80-ies )
                 0.9 ns - JMP SHORT
                 1   ns - speed-of-light (a photon) travel a 1 ft (30.5cm) distance -- will stay, throughout any foreseeable future :o)
    ?~~~~~~~~~~~ 1   ns - MUL ( i**2 = MUL i, i )~~~~~~~~~ doing this 1,000 x is 1 [us]; 1,000,000 x is 1 [ms]; 1,000,000,000 x is 1 [s] ~~~~~~~~~~~~~~~~~~~~~~~~~
               3~4   ns - CPU L2  CACHE reference           (2020/Q1)
                 5   ns - CPU L1 iCACHE Branch mispredict
                 7   ns - CPU L2  CACHE reference
                10   ns - DIV
                19   ns - CPU L3  CACHE reference           (2020/Q1 considered slow on 28c Skylake)
                71   ns - CPU cross-QPI/NUMA best  case on XEON E5-46*
               100   ns - MUTEX lock/unlock
               100   ns - own DDR MEMORY reference
               135   ns - CPU cross-QPI/NUMA best  case on XEON E7-*
               202   ns - CPU cross-QPI/NUMA worst case on XEON E7-*
               325   ns - CPU cross-QPI/NUMA worst case on XEON E5-46*
    |Q>~~~~~ 5,000   ns - QPU on-chip QUBO ( quantum annealer minimiser 1 Qop )
            10,000   ns - Compress 1K bytes with a Zippy PROCESS
            20,000   ns - Send     2K bytes over 1 Gbps  NETWORK
           250,000   ns - Read   1 MB sequentially from  MEMORY
           500,000   ns - Round trip within a same DataCenter
    ?~~~ 2,500,000   ns - Read  10 MB sequentially from  MEMORY~~(about an empty python process to copy on spawn)~~~~ x ( 1 + nProcesses ) on spawned process instantiation(s), yet an empty python interpreter is indeed not a real-world, production-grade use-case, is it?
        10,000,000   ns - DISK seek
        10,000,000   ns - Read   1 MB sequentially from  NETWORK
    ?~~ 25,000,000   ns - Read 100 MB sequentially from  MEMORY~~(somewhat light python process to copy on spawn)~~~~ x ( 1 + nProcesses ) on spawned process instantiation(s)
        30,000,000   ns - Read 1 MB sequentially from a  DISK
    ?~~ 36,000,000   ns - Pickle.dump() SER a 10 MB object for IPC-transfer and remote DES in spawned process~~~~~~~~ x ( 2 ) for a single 10MB parameter-payload SER/DES + add an IPC-transport costs thereof or NETWORK-grade transport costs, if going into [distributed-computing] model Cluster ecosystem
       150,000,000   ns - Send a NETWORK packet CA -> Netherlands
    1s:   |   |   |
      .   |   | ns|
      .   | us|
      . ms|

Juste pour une revue de 2015 des prédictions pour 2020 :

Encore quelques améliorations, prévisions pour 2020 (Réf. réponse d'olibre ci-dessous)

            16 000 ns ( 16 µs) SSD random read (olibre's note: should be less)
           500 000 ns (  ½ ms) Round trip in datacenter
         2 000 000 ns (  2 ms) HDD random read (seek)
    1s:   |   |   |
      .   |   | ns|
      .   | us|
      . ms|

In 2015 there are currently available:
======================================
               820 ns ( 0.8µs) random read from a SSD-DataPlane
             1 200 ns ( 1.2µs) Round trip in datacenter
             1 200 ns ( 1.2µs) random read from a HDD-DataPlane
    1s:   |   |   |
      .   |   | ns|
      .   | us|
      . ms|

Juste pour comparer la latence du CPU et du GPU :

Il n'est pas facile de comparer même les configurations les plus simples de CPU / cache / DRAM (même dans un modèle d'accès à la mémoire uniforme), où la vitesse de la DRAM est un facteur déterminant de la latence, et la latence en charge (système saturé), où cette dernière domine et est quelque chose que les applications d'entreprise connaîtront plus qu'un système inactif et entièrement déchargé.

                    +----------------------------------- 5,6,7,8,9,..12,15,16 
                    |                               +--- 1066,1333,..2800..3300
                    v                               v
First  word = ( ( CAS latency * 2 ) + ( 1 - 1 ) ) / Data Rate  
Fourth word = ( ( CAS latency * 2 ) + ( 4 - 1 ) ) / Data Rate
Eighth word = ( ( CAS latency * 2 ) + ( 8 - 1 ) ) / Data Rate
                                        ^----------------------- 7x .. difference
******************************** 
So:
===

resulting DDR3-side latencies are between _____________
                                          3.03 ns    ^
                                                     |
                                         36.58 ns ___v_ based on DDR3 HW facts

Les moteurs GPU ont fait l'objet d'un marketing technique important, alors que les dépendances internes profondes sont essentielles pour comprendre les forces et les faiblesses réelles de ces architectures dans la pratique (généralement très différentes des attentes sifflées par le marketing agressif).

   1 ns _________ LETS SETUP A TIME/DISTANCE SCALE FIRST:
          °      ^
          |\     |a 1 ft-distance a foton travels in vacuum ( less in dark-fibre )
          | \    |
          |  \   |
        __|___\__v____________________________________________________
          |    |
          |<-->|  a 1 ns TimeDOMAIN "distance", before a foton arrived
          |    |
          ^    v 
    DATA  |    |DATA
    RQST'd|    |RECV'd ( DATA XFER/FETCH latency )

  25 ns @ 1147 MHz FERMI:  GPU Streaming Multiprocessor REGISTER access
  35 ns @ 1147 MHz FERMI:  GPU Streaming Multiprocessor    L1-onHit-[--8kB]CACHE

  70 ns @ 1147 MHz FERMI:  GPU Streaming Multiprocessor SHARED-MEM access

 230 ns @ 1147 MHz FERMI:  GPU Streaming Multiprocessor texL1-onHit-[--5kB]CACHE
 320 ns @ 1147 MHz FERMI:  GPU Streaming Multiprocessor texL2-onHit-[256kB]CACHE

 350 ns
 700 ns @ 1147 MHz FERMI:  GPU Streaming Multiprocessor GLOBAL-MEM access
 - - - - -

Il est donc beaucoup plus important de comprendre les particularités internes que dans d'autres domaines, où les architectures sont publiées et où de nombreux points de référence sont librement accessibles. Un grand merci aux testeurs de GPU-micro, qui ont consacré leur temps et leur créativité à révéler la vérité sur les véritables schémas de travail à l'intérieur de la boîte noire des GPU testés.

    +====================| + 11-12 [usec] XFER-LATENCY-up   HostToDevice    ~~~ same as Intel X48 / nForce 790i
    |   |||||||||||||||||| + 10-11 [usec] XFER-LATENCY-down DeviceToHost
    |   |||||||||||||||||| ~  5.5 GB/sec XFER-BW-up                         ~~~ same as DDR2/DDR3 throughput
    |   |||||||||||||||||| ~  5.2 GB/sec XFER-BW-down @8192 KB TEST-LOAD      ( immune to attempts to OverClock PCIe_BUS_CLK 100-105-110-115 [MHz] ) [D:4.9.3]
    |                       
    |              Host-side
    |                                                        cudaHostRegister(   void *ptr, size_t size, unsigned int flags )
    |                                                                                                                 | +-------------- cudaHostRegisterPortable -- marks memory as PINNED MEMORY for all CUDA Contexts, not just the one, current, when the allocation was performed
    |                        ___HostAllocWriteCombined_MEM / cudaHostFree()                                           +---------------- cudaHostRegisterMapped   -- maps  memory allocation into the CUDA address space ( the Device pointer can be obtained by a call to cudaHostGetDevicePointer( void **pDevice, void *pHost, unsigned int flags=0 ); )
    |                        ___HostRegisterPORTABLE___MEM / cudaHostUnregister( void *ptr )
    |   ||||||||||||||||||
    |   ||||||||||||||||||
    |   | PCIe-2.0 ( 4x) | ~ 4 GB/s over  4-Lanes ( PORT #2  )
    |   | PCIe-2.0 ( 8x) | ~16 GB/s over  8-Lanes
    |   | PCIe-2.0 (16x) | ~32 GB/s over 16-Lanes ( mode 16x )
    |
    |   + PCIe-3.0 25-port 97-lanes non-blocking SwitchFabric ... +over copper/fiber
    |                                                                       ~~~ The latest PCIe specification, Gen 3, runs at 8Gbps per serial lane, enabling a 48-lane switch to handle a whopping 96 GBytes/sec. of full duplex peer to peer traffic. [I:]
    |
    | ~810 [ns]    + InRam-"Network" / many-to-many parallel CPU/Memory "message" passing with less than 810 ns latency any-to-any
    |
    |   ||||||||||||||||||
    |   ||||||||||||||||||
    +====================|
    |.pci............HOST|

Je vous prie de m'excuser d'avoir une vision plus large de la situation, mais démasquage des temps de latence a également des limites cardinales imposées par les capacités smREG/L1/L2 sur puce et les taux d'échec/de réussite.

    |.pci............GPU.|
    |                    | FERMI [GPU-CLK] ~ 0.9 [ns] but THE I/O LATENCIES                                                                  PAR -- ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| <800> warps ~~ 24000 + 3200 threads ~~ 27200 threads [!!]
    |                                                                                                                                               ^^^^^^^^|~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ [!!]
    |                                                       smREGs________________________________________ penalty +400 ~ +800 [GPU_CLKs] latency ( maskable by 400~800 WARPs ) on <Compile-time>-designed spillover(s) to locMEM__
    |                                                                                                              +350 ~ +700 [ns] @1147 MHz FERMI ^^^^^^^^
    |                                                                                                                          |                    ^^^^^^^^
    |                                                                                                                       +5 [ns] @ 200 MHz FPGA. . . . . . Xilinx/Zync Z7020/FPGA massive-parallel streamline-computing mode ev. PicoBlazer softCPU
    |                                                                                                                          |                    ^^^^^^^^
    |                                                                                                                   ~  +20 [ns] @1147 MHz FERMI ^^^^^^^^
    |                                                             SM-REGISTERs/thread: max  63 for CC-2.x -with only about +22 [GPU_CLKs] latency ( maskable by 22-WARPs ) to hide on [REGISTER DEPENDENCY] when arithmetic result is to be served from previous [INSTR] [G]:10.4, Page-46
    |                                                                                  max  63 for CC-3.0 -          about +11 [GPU_CLKs] latency ( maskable by 44-WARPs ) [B]:5.2.3, Page-73
    |                                                                                  max 128 for CC-1.x                                    PAR -- ||||||||~~~|
    |                                                                                  max 255 for CC-3.5                                    PAR -- ||||||||||||||||||~~~~~~|
    |
    |                                                       smREGs___BW                                 ANALYZE REAL USE-PATTERNs IN PTX-creation PHASE <<  -Xptxas -v          || nvcc -maxrregcount ( w|w/o spillover(s) )
    |                                                                with about 8.0  TB/s BW            [C:Pg.46]
    |                                                                           1.3  TB/s BW shaMEM___  4B * 32banks * 15 SMs * half 1.4GHz = 1.3 TB/s only on FERMI
    |                                                                           0.1  TB/s BW gloMEM___
    |         ________________________________________________________________________________________________________________________________________________________________________________________________________________________
    +========|   DEVICE:3 PERSISTENT                          gloMEM___
    |       _|______________________________________________________________________________________________________________________________________________________________________________________________________________________
    +======|   DEVICE:2 PERSISTENT                          gloMEM___
    |     _|______________________________________________________________________________________________________________________________________________________________________________________________________________________
    +====|   DEVICE:1 PERSISTENT                          gloMEM___
    |   _|______________________________________________________________________________________________________________________________________________________________________________________________________________________
    +==|   DEVICE:0 PERSISTENT                          gloMEM_____________________________________________________________________+440 [GPU_CLKs]_________________________________________________________________________|_GB|
    !  |                                                         |\                                                                +                                                                                           |
    o  |                                                texMEM___|_\___________________________________texMEM______________________+_______________________________________________________________________________________|_MB|
       |                                                         |\ \                                 |\                           +                                               |\                                          |
       |                                              texL2cache_| \ \                               .| \_ _ _ _ _ _ _ _texL2cache +370 [GPU_CLKs] _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ | \                                   256_KB|
       |                                                         |  \ \                               |  \                         +                                 |\            ^  \                                        |
       |                                                         |   \ \                              |   \                        +                                 | \           ^   \                                       |
       |                                                         |    \ \                             |    \                       +                                 |  \          ^    \                                      |
       |                                              texL1cache_|     \ \                           .|     \_ _ _ _ _ _texL1cache +260 [GPU_CLKs] _ _ _ _ _ _ _ _ _ |   \_ _ _ _ _^     \                                 5_KB|
       |                                                         |      \ \                           |      \                     +                         ^\      ^    \        ^\     \                                    |
       |                                     shaMEM + conL3cache_|       \ \                          |       \ _ _ _ _ conL3cache +220 [GPU_CLKs]           ^ \     ^     \       ^ \     \                              32_KB|
       |                                                         |        \ \                         |        \       ^\          +                         ^  \    ^      \      ^  \     \                                  |
       |                                                         |         \ \                        |         \      ^ \         +                         ^   \   ^       \     ^   \     \                                 |
       |                                   ______________________|__________\_\_______________________|__________\_____^__\________+__________________________________________\_________\_____\________________________________|
       |                  +220 [GPU-CLKs]_|           |_ _ _  ___|\          \ \_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ \ _ _ _ _\_ _ _ _+220 [GPU_CLKs] on re-use at some +50 GPU_CLKs _IF_ a FETCH from yet-in-shaL2cache
       | L2-on-re-use-only +80 [GPU-CLKs]_| 64 KB  L2_|_ _ _   __|\\          \ \_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ \ _ _ _ _\_ _ _ + 80 [GPU_CLKs] on re-use from L1-cached (HIT) _IF_ a FETCH from yet-in-shaL1cache
       | L1-on-re-use-only +40 [GPU-CLKs]_|  8 KB  L1_|_ _ _    _|\\\          \_\__________________________________\________\_____+ 40 [GPU_CLKs]_____________________________________________________________________________|
       | L1-on-re-use-only + 8 [GPU-CLKs]_|  2 KB  L1_|__________|\\\\__________\_\__________________________________\________\____+  8 [GPU_CLKs]_________________________________________________________conL1cache      2_KB|
       |     on-chip|smREG +22 [GPU-CLKs]_|           |t[0_______^:~~~~~~~~~~~~~~~~\:________]
       |CC-  MAX    |_|_|_|_|_|_|_|_|_|_|_|           |t[1_______^                  :________]
       |2.x   63    |_|_|_|_|_|_|_|_|_|_|_|           |t[2_______^                  :________] 
       |1.x  128    |_|_|_|_|_|_|_|_|_|_|_|           |t[3_______^                  :________]
       |3.5  255 REGISTERs|_|_|_|_|_|_|_|_|           |t[4_______^                  :________]
       |         per|_|_|_|_|_|_|_|_|_|_|_|           |t[5_______^                  :________]
       |         Thread_|_|_|_|_|_|_|_|_|_|           |t[6_______^                  :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[7_______^     1stHalf-WARP :________]______________
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[ 8_______^:~~~~~~~~~~~~~~~~~:________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[ 9_______^                  :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[ A_______^                  :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[ B_______^                  :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[ C_______^                  :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[ D_______^                  :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[ E_______^                  :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|       W0..|t[ F_______^____________WARP__:________]_____________
       |            |_|_|_|_|_|_|_|_|_|_|_|         ..............             
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[0_______^:~~~~~~~~~~~~~~~\:________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[1_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[2_______^                 :________] 
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[3_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[4_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[5_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[6_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[7_______^    1stHalf-WARP :________]______________
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[ 8_______^:~~~~~~~~~~~~~~~~:________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[ 9_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[ A_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[ B_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[ C_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[ D_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[ E_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|       W1..............|t[ F_______^___________WARP__:________]_____________
       |            |_|_|_|_|_|_|_|_|_|_|_|         ....................................................
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[0_______^:~~~~~~~~~~~~~~~\:________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[1_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[2_______^                 :________] 
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[3_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[4_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[5_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[6_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[7_______^    1stHalf-WARP :________]______________
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[ 8_______^:~~~~~~~~~~~~~~~~:________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[ 9_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[ A_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[ B_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[ C_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[ D_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[ E_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|tBlock Wn....................................................|t[ F_______^___________WARP__:________]_____________
       |
       |                   ________________          °°°°°°°°°°°°°°°°°°°°°°°°°°~~~~~~~~~~°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°
       |                  /                \   CC-2.0|||||||||||||||||||||||||| ~masked  ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
       |                 /                  \  1.hW  ^|^|^|^|^|^|^|^|^|^|^|^|^| <wait>-s ^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|
       |                /                    \ 2.hW  |^|^|^|^|^|^|^|^|^|^|^|^|^          |^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^
       |_______________/                      \______I|I|I|I|I|I|I|I|I|I|I|I|I|~~~~~~~~~~I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|
       |~~~~~~~~~~~~~~/ SM:0.warpScheduler    /~~~~~~~I~I~I~I~I~I~I~I~I~I~I~I~I~~~~~~~~~~~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I
       |              \          |           //
       |               \         RR-mode    //
       |                \    GREEDY-mode   //
       |                 \________________//
       |                   \______________/SM:0__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:1__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:2__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:3__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:4__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:5__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:6__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:7__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:8__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:9__________________________________________________________________________________
       |                                ..|SM:A      |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:B      |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:C      |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:D      |t[ F_______^___________WARP__:________]_______
       |                                  |_______________________________________________________________________________________
       */

Le résultat ?

Toute conception motivée par une faible latence doit plutôt procéder à une rétro-ingénierie de l'"hydraulique E/S" (les 0 1-XFER étant incompressibles par nature) et les latences qui en résultent déterminent l'enveloppe de performance de toute solution GPGPU, qu'il s'agisse d'une solution à forte intensité de calcul ( lire où les coûts de traitement pardonnent un peu plus un XFER à faible latence ... ) ou non ( lire où (à la surprise générale) les CPU sont plus rapides dans le traitement de bout en bout que les GPU [citations disponibles]).

Répondu el 11 de Octobre, 2015 par user3666197 (1 Points )

Answer 6

4voto

Oskar Person Points 31

Regardez ce graphique en "escalier", qui illustre parfaitement les différents temps d'accès (en termes de tics d'horloge). Remarquez que le processeur rouge a une "marche" supplémentaire, probablement parce qu'il a L4 (alors que les autres n'en ont pas).

Graphs of access times with different memory hierarchies

Tiré de cet article d'Extremetech.

En informatique, on parle de "complexité des entrées-sorties".

Répondu el 1 de Avril, 2018 par Oskar Person (31 Points )

Coût approximatif de l'accès aux différents caches et à la mémoire principale ?

Réponses

Coût d'accès aux différentes mémoires dans une jolie page

Résumé

Voir aussi d'autres sources

Voir aussi

Dans l'intérêt de 2020, il convient d'examiner les prévisions pour 2025 :

Juste pour une revue de 2015 des prédictions pour 2020 :

Juste pour comparer la latence du CPU et du GPU :

Le résultat ?

Questions en vedette

Top Tags

Prograide.com

Powered by:

Coût approximatif de l'accès aux différents caches et à la mémoire principale ?

Réponses

Coût d'accès aux différentes mémoires dans une jolie page

Résumé

Voir aussi d'autres sources

Voir aussi

Dans l'intérêt de 2020, il convient d'examiner les prévisions pour 2025 :

Juste pour une revue de 2015 des prédictions pour 2020 :

Juste pour comparer la latence du CPU et du GPU :

Le résultat ?

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: