FLOPS

Ytelse
Navn Enhet Verdi
kiloFLOPS kFLOPS 103
megaFLOPS MFLOPS 106
gigaFLOPS GFLOPS 109
teraFLOPS TFLOPS 1012
petaFLOPS PFLOPS 1015
exaFLOPS EFLOPS 1018
zettaFLOPS ZFLOPS 1021
yottaFLOPS YFLOPS 1024

I databehandling er floating point operations per second (FLOPS, flops eller flop/s) (norsk: flyttallsoperasjoner per sekund) en måleenhet for ytelse i datamaskiner, som er nyttig i vitenskapelige beregninger som krever flyttalls-beregninger. For slike tilfeller er det et mer nøyaktig mål enn instruksjoner per sekund.

Flyttalls-aritmetikk

Flyttalls-aritmetikk er nødvendig for svært store eller svært små reelle tall, eller beregninger som krever en stor dynamisk rekkevidde. Flyttalls-representasjon er likt som vitenskapelig notasjon, bortsett fra at alt er representert i totallsystemet i stedet for titallsystemet.

Beregningsorientert ytelse

FLOPS og MIPS er måleenheter for ytelse av en datamaskin. Flyttalls-operasjoner er vanligvis brukt i for eksempel vitenskapelig beregningsorientert forskning. Enheten MIPS måler ytelsen til å utføre heltalls-operasjoner hos datamaskinen. Eksempler på heltall-operasjoner inkluderer databevegelse (A til B) eller verditesting (Hvis A = B, og C).

FLOPS på et HPC-system kan beregnes ved hjelp av denne ligningen:[1]

FLOPS = racks × noder rack × socketer node × kjerner socket × sykluser sekund × FLOPs syklus {\displaystyle {\text{FLOPS}}={\text{racks}}\times {\frac {\text{noder}}{\text{rack}}}\times {\frac {\text{socketer}}{\text{node}}}\times {\frac {\text{kjerner}}{\text{socket}}}\times {\frac {\text{sykluser}}{\text{sekund}}}\times {\frac {\text{FLOPs}}{\text{syklus}}}} .

Dette kan forenkles til det mest vanlige tilfellet: en datamaskin som har nøyaktig 1 CPU:

FLOPS = kjerner × sykluser sekund × FLOPs syklus {\displaystyle {\text{FLOPS}}={\text{kjerner}}\times {\frac {\text{sykluser}}{\text{sekund}}}\times {\frac {\text{FLOPs}}{\text{syklus}}}} .

FLOPS kan bli målt i ulike grader av presisjon, for eksempel TOP500-listen over superdatamaskiner rangerer datamaskiner ved 64-biters (dobbelpresisjons flyttalls-format)- operasjoner per sekund, forkortet til FP64.[2] Lignende målinger er tilgjengelig for 32-bit (FP32) og 16-bit] (FP16) operasjoner.

FLOPS per syklus for forskjellige prosessorer

Mikroarkitektur ISA FP64 FP32 FP16
Intel Atom (Bonnell, Saltwell, Silvermont and Goldmont) SSE3 (64-bit) 2 4 0
Intel Core (Merom, Penryn)
Intel Nehalem (Nehalem, Westmere)
SSE4 (128-bit) 4 8 0
Intel Sandy Bridge (Sandy Bridge, Ivy Bridge) AVX (256-bit) 8 16 0
Intel Haswell (Haswell, Devil's Canyon, Broadwell)
Intel Skylake (Skylake, Kaby Lake, Coffee Lake, Whiskey lake, Amber lake)
AVX2 & FMA (256-bit) 16 32 0
Intel Xeon Phi (Knights Corner) SSE & FMA (256-bit) 16 32 0
Intel Skylake-X
Intel Xeon Phi (Knights Landing, Knights Mill)
AVX-512 & FMA (512-bit) 32 64 0
AMD Bobcat AMD64 (64-bit) 2 4 0
AMD Jaguar
AMD Puma
AVX (128-bit) 4 8 0
AMD K10 SSE4/4a (128-bit) 4 8 0
AMD Bulldozer (Piledriver, Steamroller, Excavator) AVX (128-bit) Bulldozer-Steamroller

AVX2 (128-bit) Excavator

FMA3 (Bulldozer)[3]

FMA3/4 (Piledriver-Excavator)

4 8 0
AMD Zen (Ryzen 1000 series, Threadripper 1000 series, Epyc Naples)
AMD Zen+[4][5] (Ryzen 2000 series, Threadripper 2000 series)
AVX2 & FMA (128-bit, 256-bit decoding)[6] 8 16 0
AMD Zen 2[7] (Ryzen 3000 series, Threadripper 3000 series, Epyc Rome) AVX2 & FMA (256-bit) 16 32 0
ARM Cortex-A7, A9, A15 ARMv7 1 8 0
ARM Cortex-A32, A35, A53, A55, A72, A73, A75 ARMv8 2 8 0
ARM Cortex-A57 ARMv8 4 8 0
ARM Cortex-A76, A77 ARMv8 8 16 0
Qualcomm Krait ARMv8 1 8 0
Qualcomm Kryo (1xx - 3xx) ARMv8 2 8 0
Qualcomm Kryo (4xx - 5xx) ARMv8 8 16 0
Samsung Exynos M1 and M2 ARMv8 2 8 0
Samsung Exynos M3 and M4 ARMv8 3 12 0
IBM PowerPC A2 (Blue Gene/Q) ? 8 8 (as FP64) 0
Hitachi SH-4[8] SH-4 1 7 0
Nvidia Fermi (bare GeForce GTX 465–480, 560 Ti, 570-590) PTX 1/4 (låst av driver, 1 i maskinvare) 2 0
Nvidia Fermi (bare Quadro 600-2000) PTX 1/8 2 0
Nvidia Fermi (bare Quadro 4000–7000, Tesla) PTX 1 2 0
Nvidia Kepler (GeForce (unntatt Titan og Titan Black), Quadro (unntatt K6000), Tesla K10) PTX 1/12 (for GK110: låst av driver, 2/3 i maskinvare) 2 0
Nvidia Kepler (GeForce GTX Titan and Titan Black, Quadro K6000, Tesla (unntatt K10)) PTX 2/3 2 0
Nvidia Maxwell
Nvidia Pascal (alle unntatt Quadro GP100 og Tesla P100)
PTX 1/16 2 1/32
Nvidia Pascal (bare Quadro GP100 og Tesla P100) PTX 1 2 4
Nvidia Volta[9] PTX 1 2 (FP32) + 2 (INT32) 16
Nvidia Turing (bare GeForce 16XX) PTX 1/16 2 (FP32) + 2 (INT32) 4
Nvidia Turing (alle unntatt GeForce 16XX) PTX 1/16 2 (FP32) + 2 (INT32) 16
Nvidia Ampere[10][11] PTX 2 2 (FP32) + 2 (INT32) 32
AMD GCN (bare Radeon Pro WX 2100-7100) GCN 1/8 2 2
AMD GCN (alle unntatt Radeon VII, Instinct MI50 og MI60, Radeon Pro WX 2100-7100) GCN 1/8 2 4
AMD GCN Vega 20 (bare Radeon VII) GCN 1/2 (låst av driver, 1 i maskinvare) 2 4
AMD GCN Vega 20 (bare Radeon Instinct MI50 / MI60 og Radeon Pro VII) GCN 1 2 4
AMD RDNA[12][13] RDNA 1/8 2 4
Graphcore Colossus GC2[14][15][16] (verdier estimert) ? 0 18 72
Graphcore Colossus GC200 Mk2[17] (verdier estimert) ? 0 18 144

[18]

Se også

Referanser

  1. ^ «"Nodes, Sockets, Cores and FLOPS, Oh, My" by Dr. Mark R. Fernandez, Ph.D.». Arkivert fra originalen 13. februar 2019. Besøkt 22. august 2020. 
  2. ^ «FREQUENTLY ASKED QUESTIONS». Besøkt 23. juni 2020. 
  3. ^ «New instructions support for Bulldozer (FMA3) and Piledriver (FMA3+4 and CVT,BMI,TBM)» (PDF). 
  4. ^ «Agner's CPU blog - Test results for AMD Ryzen». 
  5. ^ Arkivert kopi (PDF). Arkivert fra originalen (PDF) 31. juli 2020. Besøkt 22. august 2020.  page 7
  6. ^ «The microarchitecture of Intel and AMD CPUs» (PDF). 
  7. ^ «AMD CEO Lisa Su’s COMPUTEX 2019 Keynote». 
  8. ^ «SH-4 Next-Generation DSP Architecture for VoIP» (PDF). Hitachi. Besøkt 21. juni 2019. 
  9. ^ «Inside Volta: The World’s Most Advanced Data Center GPU». 
  10. ^ «NVIDIA Ampere Architecture In-Depth». 
  11. ^ «NVIDIA A100». 
  12. ^ «Alles zu Navi: Radeon RX 5700 XT ist RDNA mit GDDR6». 
  13. ^ «AMD Radeon RX 5700 XT». 
  14. ^ «6 threads per core imply that IPC is a multiple of 6, 1216 cores per chip». 
  15. ^ «250 TFLOPs/s for two chips with FP16 mixed precision». 
  16. ^ «Estimation via power consumption that FP32 is 1/4 of FP16 and that clock frequency is below 1.5GHz». 
  17. ^ «Introducing Graphcore's Mk2 IPU systems». 
  18. ^ «Floating-Point Operations Per Second (FLOPS)». 
Oppslagsverk/autoritetsdata
Store norske leksikon · Store Danske Encyklopædi · GND