V odvetví HPC (hlavne v USA) možno dnes rozlíšiť tri hlavné oblasti práce: uvoľnenie komerčných vzoriek hyperpetascale superpočítačov a zákazkových špecializovaných výpočtových systémov (2012-2017) na základe výsledkov programu DARPA HPCS (2002 -2010) a podobné programy v Číne a Japonsku; vytváranie nových exascale technológií v rámci programu DARPA UHPC (2010-2020) pre systémy so špecifickou účinnosťou 50 GFLOPS/W; ako aj implementáciu programu DARPA STARnet (2013–2025/2030) s cieľom optimalizovať využitie technológií CMOS a pracovať na vytvorení novej základne dizajnu prvkov post-Moorovej éry, ktorá sa bude používať najskôr v projektoch exascale, a potom, keď vytváranie superpočítačov na úrovni zetta a yotta.

Výsledky práce prvého smeru možno vysledovať v takých komerčných systémoch ako IBM Power 775 a Сray XE/XT, Cray XC30; K-počítač; Tianhe-1A a Tianhe-2 (TH-2). Navyše, v posledných dvoch sú tri najdôležitejšie črty budúcich exaškálových systémov najvýraznejšie: hierarchia, hybridita a heterogenita. Hierarchia - pridelenie úrovní hierarchie siete, v ktorej sú komponenty úzko prepojené podľa typu "každý s každým" prostredníctvom smerovačov s veľkým počtom portov pre siete. rôzne úrovne hierarchia a vysoká celková priepustnosť. Hybridita - použitie mikroprocesorov s jadrami vo výpočtových uzloch iný typ. Heterogenita - využitie heterogénnych segmentov v superpočítačoch, zameraných na riešenie konkrétneho typu problémov a realizovaných na báze špecializovaných mikroprocesorov, sietí a zariadení. V TH-2 je takýto heterogénny segment vo vzťahu k celému systému implementovaný na báze niekoľkých tisíc hromadných viacvláknových mikroprocesorov FT-1500 vlastnej výroby.

Pri TH-2 je zaujímavá najmä hybridná vlastnosť spojená s použitím hromadných viacjadrových mikroprocesorov Xeon Phi vo výpočtových uzloch tohto systému – TH-2 je dnes lídrom v počte používaných mikroprocesorov tohto typu. Tento mikroprocesor, ktorý má špičkový výkon 1 TFLOPS, a dôvody jeho zaradenia do TH-2 si zaslúžia dôkladnú analýzu, najmä s cieľom objasniť požiadavky na budúce mikroprocesory s výkonom 10–20 TFLOPS, ktoré sa stanú základným prvky exascale systémov.

Tianhe-2 - hybridná vlastnosť

Výpočtovým uzlom TH-2 sú dva 12-jadrové mikroprocesory Xeon Ivy Bridge (2,2 GHz, špičkový výkon 211,2 GFLOPS, dve vlákna v každom jadre) a šesť 57-jadrových Xeon Phi (1,1 GHz, 1,003 TFLOPS, technológia 22 nm). Výpočtový uzol má 88 GB RAM, z toho 64 GB je pamäť Ivy Bridge a 24 GB pamäť Xeon Phi.

Mikroprocesor Intel Xeon Phi

Micro procesor Xeon Prvá generácia Phi má 61 jadier (4 vlákna v každom jadre, 512-bitové SIMD zariadenie), 8 pamäťových radičov, každý s dvoma 32-bitovými kanálmi. Druhá generácia tejto rodiny sa bude vyrábať 14 nm technológiou. Xeon Phi má dva kanály vykonávania inštrukcií: pre operácie SIMD a operácie s pohyblivou rádovou čiarkou; pre celočíselné operácie. Do týchto potrubí je možné vydať dve inštrukcie za cyklus. V každom jadre sa inštrukcie vykonávajú v poradí (v poradí), čo je jednoduchšie ako vykonávanie mimo poradia (mimo poradia), ako je implementované v superskalárnych mikroprocesoroch. Každé jadro má vyrovnávaciu pamäť inštrukcií a vyrovnávaciu pamäť údajov L1 s kapacitou 32 KB každá, ako aj vyrovnávaciu pamäť L2 s veľkosťou 512 KB, vyrovnávaciu pamäť dátových adries (používa sa na zabezpečenie koherencie pamäte L2 rôznych jadier mikroprocesora). Neexistuje žiadna vyrovnávacia pamäť L3.

Vnútorná sieť mikroprocesor - desať jednosmerných krúžkov, päť v jednom smere a päť v druhom smere. Štruktúra piatich jednosmerných kruhov zahŕňa: 64-bajtový dátový kruh, dva kruhy príkazov (čítanie a zápis) a adresy; dva krúžky správ potvrdzujúce vykonanie príkazov, riadenie toku prenosov v kruhu, zaisťujúce koherenciu vyrovnávacej pamäte L2. Šírka pásma siete na čipe je 220 GB / s, celková šírka pásma rozhraní ôsmich pamäťových radičov je 352 GB / s.

Výpočtové uzly TH-2 obsahujú celkom 32 000 mikroprocesorov Ivy Bridge a 48 000 mikroprocesorov Xeon Phi – spolu 3 120 000 jadier, z toho 384 000 „ťažkých“ superskalárnych jadier Ivy Bridge a 2 730 malých „ľahkých“ jadier Phise X00 vlákien, ale výkonné SIMD zariadenia. Špičkový výkon TH-2 na základe taktovacej rýchlosti a operácií na takt je 54,9 PFLOPS, z toho 6,75 Ivy Bridge a 48,14 mikroprocesorov Xeon Phi.

V teste HPL (Linpack, hodnotenie Top500) pre TH-2 bol dosiahnutý reálny výkon 30,65 PFLOPS – prínos Xeon Phi je jasne viditeľný, keďže aj špičkový výkon superskalárnych mikroprocesorov je len 6,75 PFLOPS. Pri dvoch skutočných problémoch (hydrodynamika a mikroturbulencia plazmy v toruse) je výkon jedného Xeonu Phi iba 70 a 80 % vyvinutého výkonu dvoch Ivy Bridge. Inými slovami, skutočný výkon Xeon Phi je 140-160% skutočného výkonu Ivy Bridge. Tento pomer plne ospravedlňuje použitie Xeon Phi, ale nezodpovedá pomeru špičkového výkonu – sú päťkrát väčšie.

Prečo bol Xeon Phi použitý v TH-2, čo je dôvodom popularity tohto mikroprocesora, aké sú jeho silné a slabé stránky?

V práci na SpMV teste násobenia riedkej matice vektorom sa Xeon Phi porovnáva so superskalárnymi mikroprocesormi a grafickými koprocesormi. Test SpMV bol v odborných kruhoch vždy dôležitý, ale teraz sa stane obzvlášť populárnym po vydaní práce Jacka Dongarru (autor Top500) začiatkom júla 2013, ktorý priznal, že test Linpack bol neadekvátny moderné aplikácie a že jeho výsledky sú pre vývojárov, používateľov a tvorcov politík v skutočnosti zavádzajúce. Dongarra navrhol zaviesť nové hodnotenie na základe testu SpMV, pri ktorom dochádza k intenzívnej nepravidelnej práci s pamäťou, čo značne znižuje (v porovnaní s Linpackom) úroveň vyvinutého reálneho výkonu vo vzťahu k vrcholu, ktorý závisí aj od typu. výplne nenulovými prvkami riedkej matrice.

V príspevku sú pre 22 riedkych matíc rôznej výplne nenulovými prvkami uvedené výsledky pre Xeon Phi (doska SE10P, špičkový výkon - 61 (jadro) x 16 (prevádzky / takt) x 1,05 GHz = 1024 GFLOPS) v porovnanie s rôznymi mikroprocesormi: NVIDIA Tesla C2050 (Fermi) - 448 jadier CUDA, špičkový výkon 515 GFLOPS; Tesla K20 (Kepler) - 2 496 CUDA jadier, 1 TFLOPS; doska s dvoma Intel Xeon X5680 (Westmere) - 12 jadier, 320 GFLOPS; doska s dvoma Intel Xeon E5-2670 (Sandy Bridge) - 16 jadier, 330 GFLOPS. Zistilo sa, že reálny výkon Xeon Phi dosahuje od 2,5 do 22 GFLOPS na rôznych matriciach. Na 11 matriciach z 22 procesor Xeon Phi prekonáva GPU Kepler, ale nie viac ako dvakrát. GPU Kepler sú zvyčajne lepšie ako GPU Fermi a GPU Fermi sú lepšie ako SandyBridge, ktorý je dvakrát tak dobrý ako Westmere. Zároveň je podiel skutočného výkonu zo špičkového výkonu v teste SpMV pre všetky mikroprocesory veľmi nízky: Westmere - 0,78–1,09 %; SandyBridge - 1,36–2,12 %; GPU Fermi - 0,68-2,52%; GPU Kepler - 0,5–1,3 %; Xeon Phi - 0,25–2,25 %.

Treba priznať, že vo väčšine prípadov sa Xeon Phi ukázal ako produktívnejší v teste SpMV, ale zisk nie je taký veľký a v niektorých prípadoch došlo k strate. Väčšina pravdepodobná príčina Ide o čas strávený prácou s pamäťou – SIMD zariadenie, od ktorého sa očakával vysoký reálny výkon, je bez operandov a nečinné.

Otvorené zdroje poskytujú všeobecnú predstavu o schopnostiach Xeon Phi, avšak výsledky systematickej štúdie o jeho schopnostiach sa nepodarilo nájsť, a tak si to vyžiadalo vlastný výskum.

Výsledky testu Xeon Phi

Na analýzu bol použitý mikroprocesor Xeon Phi 5110P 1,05 GHz so špičkovým výkonom jedného jadra 16,8 GFLOPS a celkovo 1 008 TFLOPS. Porovnával sa s aktuálne dostupným dvojsoketovým uzlom s 8-jadrovými superskalárnymi mikroprocesormi Xeon E5-2660 Sandy Bridge (2,2 GHz, špičkový výkon jadra - 17,6 GFLOPS), súčasníkom Xeon Phi.

Štúdia sa začala hodnotením efektívnosti pamäťového subsystému a funkčných jednotiek na testoch s účelovo menšou záťažou (viď postranný panel „Vyhodnotenie testov s premenlivou záťažou“). Výsledné odhady nás prekvapili nečakane veľkými hodnotami latencie pre jadro XeonPhi pri vykonávaní pamäťových operácií v prípade zlej lokalizácie, ako aj nízkym reálnym výkonom v Hornerovom polynómovom teste. To všetko viedlo k ďalšiemu výskumu.

Hodnotenie na skúškach s premenlivou záťažou

Testovanie pomocou plôch APEX (Apex-map test) umožňuje určiť počet cyklov procesora strávených jedným prístupom do pamäte na čítanie v závislosti od priestorovej a časovej lokalizácie prístupov syntetizovaných testom. Pre jedno jadro Xeon Phi a Sandy Bridge sú takéto povrchy podobné, ale líšia sa charakteristikami - v tabuľke sú uvedené charakteristiky krajných bodov povrchov APEX: L - najlepšia priestorová a časová lokalizácia; G - najhoršia zároveň priestorová a časová lokalizácia; F - dobrá časová a zlá priestorová lokalizácia; T - zlá časová a dobrá priestorová lokalizácia.

Tabuľka. Oneskorenia pri vykonávaní požiadaviek na čítanie v limitných režimoch
Lokalizačné body Xeon Phi Most Xeon Sandy
1 vlákno 60 vlákien 120 vlákien 1 vlákno 16 vlákien 32 vlákien
Bod L 1,7 0,2 0,3 1,1 0,1 0,1
Bod G 442,8 8,6 4,6 229,8 15,4 15,9
Bod F 48,1 2,0 0,8 7,5 0,8 0,5
T-bod 5,1 0,2 0,2 1,9 0,4 0,4

Najlepší povrch APEX by mal mať plochý tvar - hodnoty v bodoch L, G, F a T by sa nemali príliš líšiť a mali by byť čo najmenšie. Ako však vyplýva z tabuľky, oba mikroprocesory takéto vlastnosti jednoznačne neposkytujú. Navyše sa ukázalo, že v bodoch G a F pre Xeon Phi sú veľké oneskorenia, čo bolo neočakávané, najmä preto, že taktovací frekvencia Xeon Phi je dvakrát vyššia.

S nárastom jadier a vlákien používaných v teste Apex-map sa kvalita povrchov APEX zlepšuje a pozorované oneskorenia pri vykonávaní pamäťových operácií sa výrazne znižujú. K zosúladeniu charakteristík mikroprocesorov dochádza pri 120 vláknach na Xeon Phi (môžete spustiť 240 vlákien) a 16 vláknach na Sandy Bridge. Zároveň v bode G intenzívnej nepravidelnej práce s pamäťou teraz procesor Xeon Phi výrazne prevyšuje SandyBridge. To naznačuje, že pri úlohách s intenzívnou nepravidelnou prácou s pamäťou má Xeon Phi výhodu aj vo vzťahu k dvom mostom Sandy, čo sa však dosiahne len vtedy, keď na ňom beží desaťkrát viac vlákien ako na dvojici Sandy Bridge. Tento výsledok bol očakávaný.

Vyvinutý skutočný výkon závisí od priestorovej a časovej lokalizácie prístupov do pamäte a lokalizácia je určená použitím určitých vzorcov prístupu k údajom v programoch. Skutočný výkon závisí aj od rovnováhy v programe výpočtových operácií a operácií prístupu do pamäte. Ak existuje veľa výpočtových operácií, potom na pozadí ich vykonávania môžete skryť náklady na prístupy do pamäte. Na posúdenie vplyvu jedného a druhého z uvedených faktorov na reálnu výkonnosť používa použitá metodika dve skupiny testov zo súboru Eurobench, pri ktorých sa cielene mení zaťaženie testovaného zariadenia.

Na posúdenie vplyvu vzoru prístupu do pamäte sa používa skupina testov násobenia vektorov prvok po prvku, pri ktorej sa prístup k vektorovým prvkom stáva ťažším: jeden krok, krok 3, krok 4, po indexovom vektore. Je jasné, že pri takejto komplikácii prístupu by malo dôjsť k zníženiu výkonu. Toto sa deje. So zvyšujúcou sa dĺžkou vektora sa výkon v teste s jedným krokom mení nasledovne: Xeon Phi - najprv sa zvýši na 600 MFLOPS a potom klesne na 200 MFLOPS; Sandy Bridge – zvýši sa na 3000 MFLOPS a potom klesne na 500 MFLOPS. Keď sa prístup skomplikuje, degradácia výkonu v porovnaní s testom s jedným krokom je nasledovná: Xeon Phi - klesanie najskôr na úroveň 100 MFLOPS a so zvýšením dĺžky vektora - na 30 a 10 MFLOPS; Sandy Bridge - pokles na 1,5 GFLOPS (prístup v prírastkoch 3 alebo 4) a 700 MFLOPS (prístup pomocou indexového vektora), s nárastom dĺžky vektora - pokles na úroveň 200–50 MFLOPS. Takže, o dobrý vzor prístup k pamäti, výkon jadra Xeon Phi je 2,5–5-krát horší ako jadro Sandy Bridge, a keď sa šablóna zhorší, degraduje 6–10-krát, zatiaľ čo Sandy Bridge 2–10-krát.

Na posúdenie vplyvu vyváženosti výpočtových operácií a pamäťových operácií bola použitá skupina testov s nárastom počtu výpočtových operácií na prístup k pamäti. Základným testom tejto skupiny je elementárne násobenie vektorov s jednotkovým krokom nad elementmi. Ďalej sa v testoch skupiny zvýšil podiel výpočtových operácií. Limitný test - výpočet pre každý prvok vektora polynómu 9. stupňa podľa Hornerovej schémy. V tomto teste pripadá na jeden prístup do pamäte 18 výpočtových operácií, je možné použiť operácie násobenia-sčítania, ktoré sa v moderných jadrách zvyčajne vykonávajú rýchlosťou jedného hodinového cyklu. Takýto výpočet zvyčajne umožňuje priblížiť sa k maximálnemu výkonu jadra. V uskutočnených štúdiách nám tento test skutočne umožnil získať maximálny skutočný výkon, ktorý navyše slabo závisí od dĺžky vektora: Xeon Phi - asi 3 GFLOPS (17,86% vrcholu), most Sandu - asi 9 GFLOPS (51,14 % vrcholu).

Reálny výkon vyvinutý na Xeon Phi sa však ukázal byť nečakane malý.

Anatolij Miščenkov ([chránený e-mailom]) - SPbGPU (Petrohrad).

Je známe, že Xeon Phi má vďaka SIMD zariadeniam zabudovaným v jadrách vysoký celkový špičkový výkon, ale čo bráni tomu, aby sa skutočný výkon priblížil k vrcholu? Ako sa priblížiť k špičkovému výkonu v reálnej aplikácii? Predpokladalo sa, že odpoveď na prvú otázku poskytne podrobnú analýzu príčin dlhé meškania prístupy do pamäte a odpoveď na druhý pomôže zistiť rovnováhu výpočtových operácií a pamäťových operácií, pri ktorých sa môžete priblížiť k špičkovému výkonu.

Na analýzu oneskorení pri vykonávaní pamäťových operácií môžete použiť test simultánneho prechodu N zoznamov:

Kým(počet - > 0) (zoznam1 = zoznam1.následný; zoznam2 = zoznam2.následný; ... zoznamN = zoznamN.následný )

Po ďalšom odkaze v každom zozname je nový nepravidelný prístup do pamäte. Keď sa príkazy vykonávajú postupne, čo je typické pre jadro Xeon Phi, kvôli informačnej závislosti sa budú príkazy tela slučky vykonávať postupne. Keď sú príkazy vykonávané mimo poradia, čo je typické pre jadro Sandy Bridge, príkazy sa vykonávajú paralelne, ale len dovtedy, kým to umožňuje mikroarchitektúra jadra. Takáto paralelizácia v SandyBridge zvyšuje tok pamäťových operácií, čo vedie k objaveniu sa tolerancie jadra - viditeľné programom oneskorenia v operáciách pamäte sú znížené.

Výsledky hodnotenia takéhoto testu sú uvedené na obr. 1 (XeonPhi, bez tolerancie) a obr. 2 (Piesočný most, je tam tolerancia). Pri veľkých dĺžkach zoznamov a ich veľkom počte dosahuje medzera v hodnotách oneskorenia 100-násobok. Toto je „cena“ jednoduchosti alebo „ľahkosti“ jadra mikroprocesora Xeon Phi, ktorá môže negovať výhody špičkového výkonu mikroprocesora.

Ak transformujeme test prechodu N zoznamov zavedením niekoľkých vlákien a každému z nich je pridelený určitý počet zoznamov prechodu, potom môžeme tiež vidieť výskyt vlastnosti tolerancie - zníženie oneskorení prístupu do pamäte. Je to spôsobené zvýšením toku pamäťových operácií, ale už kvôli súčasnému vykonávaniu niekoľkých závitových ľahkých vlákien v jadre, pre ktoré hardvér jadra poskytuje zanedbateľné časy prepínania. V jadre Xeon Phi pre dve vlákna je latencia znížená na 200 cyklov, pre tri - na 145 a pre štyri - na 100. V jadre Sandy Bridge je možné spustiť iba dve ľahké vlákna, čo umožňuje znížiť oneskorenie na 20-40 cyklov. Takže aj malý multithreading jadra Xeon Phi môže výrazne znížiť oneskorenie prístupu do pamäte, čím sa dostane na úroveň zaostávania za Sandy Bridge 2-5 krát namiesto 100 krát, ktoré boli dostupné v testovacej verzii s jedným vláknom. .

Poznanie časov oneskorenia v jednovláknových a viacvláknových režimoch vám umožňuje optimalizovať programy vyvážením výpočtových operácií a pamäťových operácií. Na určenie takejto rovnováhy bol použitý test na výpočet polynómov podľa Hornerovej schémy. Zisťovalo sa, či je možné zvýšiť reálny výkon Xeon Phi zvýšením stupňa polynómu, počtu jadier a počtu vlákien použitých v jadre.

Výsledky pre polynómy 10. (20 operácií na prístup do pamäte) a 32. stupňa (64 operácií na prístup do pamäte) sú na obr. 3. Je vidieť, že pri jednom jadre sa výkon citeľne zvyšuje s nárastom počtu vlákien na jadre aj pri takom veľkom počte výpočtových operácií. Toto nebolo vopred zrejmé a pre veľké dĺžky vektorov na polynóme 10. stupňa v skutočnosti takéto zvýšenie neexistuje. Zvýšenie stupňa polynómu na 32 umožňuje pri použití 4 vlákien na jadre dosiahnuť 70% špičkového výkonu v reálnom výkone. Nárast dĺžky vektora, čo znamená prekročenie L2 cache jadra, citeľne znižuje reálny výkon, no pri veľkom podiele výpočtových operácií (polynóm 32. stupňa) je to citeľné v oveľa menšej miere. , aj keď pri veľkých dĺžkach vektorov sa objavuje nestabilita meraného výkonu.

Potom sa uskutočnili štúdie na vyhodnotenie účinnosti používania viacerých jadier a vlákien v testoch s veľkým podielom výpočtových operácií. Veľkosť vektora bola zvolená na 1 MB, čo je viac ako vyrovnávacia pamäť L2 jadra a predpokladá určitý počet zmeškaných prístupov k L2. Poskytovanie zlyhaní z hľadiska zabezpečenia koherencie vyrovnávacej pamäte všetkých jadier v Xeon Phi je zložitý a nákladný proces v závislosti od šírku pásma sieť na čipe a nie je taká veľká. Získané výsledky doterajších meraní až do 32 jadier ukázali, že pre vektor 1 MB reálny výkon rastie s nárastom počtu zapojených jadier a vlákien a udržiava sa na dobrej úrovni pre polynóm s 32. , a pre polynóm 10. stupňa je degradácia badateľná už po 16 jadrách.

Zatiaľ takmer dokonalé výsledky v reálnom výkone boli dosiahnuté len na teste ako a[i] = a[i]*b[i] - c[i] s vektorovou dĺžkou 16 prvkov - 987 GFLOPS (97 % z vrchol). Pri tomto teste nie sú vôbec žiadne prístupy do pamäte, operácie SIMD sa spúšťajú v každom cykle, hoci sú v tele slučky. Ovplyvňuje schopnosť spustiť dva príkazy za cyklus, takže náklady na správu cyklu tu nie sú viditeľné, sú pokryté vykonávaním operácií SIMD.

Vykonané testovanie nám umožnilo vyvodiť nasledujúce závery:

  • Veľké množstvo jadier a vlákien Xeon Phi poskytuje jeho vyššiu toleranciu voči superskalárnym mikroprocesorom, ktoré je možné využiť na efektívne riešenie informačno-analytických a iných celočíselných problémov pri intenzívnej nepravidelnej práci s pamäťou.
  • Skutočný výkon Xeon Phi v operáciách s pohyblivou rádovou čiarkou je veľmi závislý od zaťaženia SIMD zariadenia, ktoré je negatívne ovplyvnené nákladmi na pamäť. Na zabezpečenie efektívnosti je potrebné: použiť všetky vlákna jadra; snažiť sa o maximálnu časopriestorovú lokalizáciu dát v jadre; poskytnúť niekoľkonásobne väčší podiel výpočtových operácií v porovnaní s pamäťovými operáciami.
  • Použitie veľkého počtu jadier s obmedzenou šírkou pásma siete na čipe a pamäťových rozhraní si naliehavo vyžaduje použitie nových technológií na ich optimalizáciu. Okrem toho je potrebné vylepšiť aplikované výpočtové modely z hľadiska redukcie prístupov do pamäte (vláknové modely), zvýšenia asynchrónnosti výpočtov a tolerancie oneskorení (viacvláknové modely a modely s oddelením výpočtových procesov a procesov prístupu k dátam).

Merania ukázali, že využiť skutočné aplikácie vysoký špičkový výkon Xeon Phi nie je jednoduchý, čo vzali do úvahy vývojári TH-2, ktorí iniciovali projekt implementácie nového programovacieho prostredia OpenMCC, ktoré nahradí OpenMP, CUDA, OpenACC a OpenCL. Prostredie OpenMCC zohľadňuje unifikáciu príkazového systému jadier Xeon Phi a použitých superskalárnych mikroprocesorov, čo umožňuje voľnejšie rozdelenie práce medzi rôzne jadrá, kontrolu rozloženia záťaže jadier v procese výpočtu, zvýšenie lokalizácia údajov a výpočtov a optimalizácia výmen. Pre vývojárov to nie je prvá skúsenosť s tvorbou automatizovaných nástrojov na paralelné programovanie veľkých hybridných systémov – pre Tianhe-1A bola vytvorená softvérová infraštruktúra TH-HPI, ktorá okrem zabezpečenia efektivity sprehľadnila hybridnosť systému používateľ.

Je potrebné pripomenúť, že operačný systém Kylin Linux, ktorý je základom pre TH-2, je optimalizovaný pre prevádzku na viacjadrových a viacvláknových systémoch, podporuje virtualizačné nástroje, ktoré umožňujú vytvárať heterogénne cloudové prostredia so zvýšenou bezpečnosťou a zahŕňajú zdroje hybridných výpočtových uzlov, zdroje servisných uzlov na hromadných viacvláknových mikroprocesoroch FT-1500.

"Potomkovia" Xeon Phi pre systémy exascale

Vytvorenie masívne viacjadrových viacvláknových mikroprocesorov typu Xeon Phi je nevyhnutnosťou moderného HPC priemyslu a ich nedostatky (slabé interné a externé rozhrania, nízke závitovanie na zabezpečenie tolerancie) budú v novej generácii určite odstránené. mikroprocesory, ale rovnakého typu. Ako príklad takýchto budúcich mikroprocesorov môžeme poukázať na dva sľubné mikroprocesory vytvorené s výkonom viac ako 10 TFLOPS: mikroprocesor projektu Echelon (NVIDIA a Cray) a mikroprocesor projektu Corona (HP).

Hybridný mikroprocesor projektu Echelon (zameraný na 10 nm technológiu) obsahuje 8 superskalárnych jadier a 256 vláknových blokov, 8 viacvláknových jadier v bloku s podporou 64 vlákien, každé využíva štyri aktívne vlákna kanálov na vydávanie príkazov. Vlákna jadra môžu bežať asynchrónne aj synchrónne. Celkový počet jadier v mikroprocesore je viac ako 1032 a počet vlákien je viac ako 65 536. Špičkový výkon mikroprocesora je 16 TFLOPS, šírka pásma pamäťového rozhrania so 16 radičmi je 2 TB / s a ​​šírka pásma 16 rozhraní s medziuzlovou komunikačnou sieťou je 0,4 TB/s. Vo výpočtovom uzle pracuje mikroprocesor s viac ako 512 GB pamäte. Na rok 2018 sa plánuje vytvorenie systému exascale založeného na takomto mikroprocesore.

Mikroprocesor projektu HP Corona (zameraný na 16 nm technológiu) obsahuje 256 homogénnych jadier (4 vlákna v každom jadre). So špičkovým výkonom nad 10 TFLOPS je navrhnutý pre prerušované aplikácie náročné na pamäť. Tento mikroprocesor je zaujímavý svojím najnovšie technológie: optická (nanofotonická) sieť na čipe a rozhrania na sade kremíkových vlnovodov, v každom z nich prebieha súčasný prenos informácií na 64 vlnových dĺžkach; 3D zostava lisovnice so spojmi umožňujúcimi integráciu v rovine lisovnice a nie po obvode; optické spojenia medzi 3D kryštálovými zostavami pomocou mikrošošovkových polí a miniatúrnych laserov. Vnútročipová 64-kanálová sieť spája 64 klastrov do kruhu, z ktorých každý má 4 procesorové jadrá. Klaster má svoj vlastný kanál 4 vlnovodov, z ktorých každý súčasne prenáša informácie na 64 vlnových dĺžkach. Vlastník klastra môže čítať údaje z kanála, zatiaľ čo ostatné klastre doň môžu iba zapisovať. Na jeden cyklus (5 GHz) sa cez jeden kanál prenesie 64 bajtov (riadok vyrovnávacej pamäte). Celková priepustnosť siete na čipe je 20 TB/s. Spotreba siete - 39W. Pamäťové rozhranie v HP Corona je implementované prostredníctvom 64 pamäťových radičov, každý 160 GB/s, spotreba pamäte je 6,4 W, rozhranie každého radiča sú dva samostatné vlnovody, každý so 64 vlnovými dĺžkami, čo ponecháva spolu 10 TB/s . Vytvorenie systému exascale založeného na takomto mikroprocesore sa očakáva po roku 2017.

Prípravy na vývoj takejto exotickej základne prvkov prebiehajú už dnes – to je práve jeden zo skrytých významov použitia mikroprocesorov typu XeonPhi v TH-2.

Stupne súbežnosti a problémy so systémovým softvérom

Stupeň paralelizmu moderných superpočítačov, určený počtom procesorových jadier, sa odhaduje na úrovni 10 6 . Napríklad Cray Titan, ktorý je v aktuálnom rebríčku Top500 (leto 2013) na druhom mieste, obsahuje 560 840 jadier a TH-2 má už 3 120 000 jadier. V exascale počítačoch by sa mal výkon zvýšiť o tri rády, čo je možné vďaka rastu paralelizmu, takže počet jadier by mal byť aspoň 10 9 . Spoľahlivosť takéhoto odhadu je podporená skutočnosťou, že na zabezpečenie tolerancie voči oneskoreniam prístupu do pamäte bude potrebné použitie viacvláknovej architektúry jadier, čo zvýši stupeň paralelizmu o ďalšie 1–2 rády. .

Paralelnosť tohto stupňa poskytujú mikroprocesory ako Xeon Phi, ale generácie paralelné procesy na úrovni 10 9 a podpora ich práce v procese vykonávania programu je pre vývojárov systémového softvéru najvážnejším problémom. Najväčšie ťažkosti čakajú tvorcov systémov na podporu vykonávania programov (run-time systémy), ktoré riadia proces vykonávania nie na úrovni OS, ale na úrovni používateľského programu, ktorí implementujú nové modely výpočtovej techniky ako streaming a multithreading. V skutočnosti je dnes veľká väčšina výskumných projektov exascale témy podľa vzoru DARPA a DoE, takáto práca sa vykonáva aj na TH-2.

Miera paralelizmu v systémoch exaflopov a viacerých úrovní, v ktorých bude použitá vytvorená elementovo-dizajnová základňa post-Moorovej éry, sa očakáva ešte vyššia. Z tohto dôvodu je v programe DARPA STARnet jedno zo šiestich prelomových výskumných centier zamerané na vytváranie modelov a systémového softvéru pre paralelizmus už na úrovni 10 12 .

Hybridná povaha superpočítača TH-2, prezentovaná v nevídanej miere pre svetovú prax, spolu s hierarchiou a heterogenitou, umožňuje riešiť nielen zložité vedecké a technické problémy – tento superpočítač by sa mal považovať za jedinečné experimentálne nastavenie na určenie požadovaných vlastností. budúcej elementárnej dizajnovej základne exascale systémov. Nemenej dôležitý je fakt, že tento superpočítač umožňuje realizovať rozsiahly výskum tvorby systémového softvéru zameraného na využitie nových výpočtových modelov s doteraz nedosiahnuteľnou úrovňou paralelizmu.

Literatúra

  1. Dongarra J. Návšteva Národnej univerzity pre obranné technológie Changsha, Čína. 3. júna 2013
  2. Yang Xue-Jun a kol. Superpočítač TianHe-1A: jeho hardvér a softvér. Journal of computer science and tachnology, 26(3): 344-351, máj 2011.
  3. Saule E. a kol. Hodnotenie výkonu Spsrse Matrix Multiplication Kernel na Intel Xeon Phi. 5. februára 2013, 19 s.

Dmitrij Andryushin ([chránený e-mailom]), Viktor Gorbunov ([chránený e-mailom]), Leonid Eisymont ([chránený e-mailom]) - zamestnanci federálneho štátneho jednotného podniku "NII" Kvant "" (Moskva). Článok bol pripravený na základe materiálov správy prezentovanej autormi na IV Moskovskom superpočítačovom fóre (MSCF-2013, RFBR grant 13-07-06046).

Zverejnil hodnotenie najvýkonnejších počítačov, aké existujú na našej planéte. V zozname je celkovo päťsto zariadení. Podľa výskumníkov sa pri jeho zostavovaní vychádzalo z takého ukazovateľa, akým je rýchlosť riešenia.Na základe zverejnených údajov je k dnešnému dňu najvýkonnejším počítačom na svete Tianhe-2, ktorý postavili Číňania vedci.

Výkon počítača

Na základe výsledkov benchmarku Linpack je tento stroj schopný vykonať 33,86 bilióna operácií za každú sekundu. Podľa tohto ukazovateľa prekonal rok 2013 svojho predchodcu Tianhe-1, ktorý bol prvýkrát predvedený asi pred tromi rokmi, takmer pätnásťkrát. Podľa čínskych inžinierov bol takýto pôsobivý výkon ich vývoja dosiahnutý použitím takzvaného modelu extrémneho paralelizmu. Je založený na použití množstva koprocesorov Phi, o ktorých bude reč neskôr. Je potrebné poznamenať, že podobný prístup používa mnoho ďalších vývojárov, ktorých zariadenia sú tiež zahrnuté v hodnotení.

Vnútorná "vypchávka" zariadenia

Najvýkonnejší počítač na svete má 3,12 milióna jadier. Vo vnútri zariadenia je 32 000 funkčných. procesory Intel Xeon a 48 000 koprocesorov Xeon-Phi. Vďaka nim sa vytvoril vyššie uvedený počet jednotlivých jadier, ktoré sa navzájom kombinujú vďaka technológii TN Express-2 špeciálne vyvinutej pre tento účel. Množstvo pamäte prevádzkovanej Tianhe-2 je jeden petabajt. Čo sa týka operačný systém, väčšina výkonný počítač na svete beží na Kylin Linuxe. Elektrická spotreba zariadenia je 17,8 megawattov. Väčšina proprietárnych funkcií tohto počítača (vrátane procesorov, operačného systému, prepojení, softvéru a aplikácií) bola vyvinutá a implementovaná v Číne. Jedinou výnimkou je výpočtový výkon stroja, ktorý je založený na čipoch z od spoločnosti Intel.

Miesto nasadenia a rozsah

Podľa vývojárov mal byť pôvodne najvýkonnejší počítač na svete uvedený na trh v roku 2015, ale ich túžba dosiahnuť pozitívny výsledok viedlo ku skratke tohto pojmu. V súčasnosti je umiestnením zariadenia Čínska univerzita obranných technológií. Zatiaľ na ňom prebiehajú všemožné testy súvisiace s predpovedaním klimatických zmien, rôznymi masívnymi výpočtami, ale aj prevádzkou zariadenia v extrémnych podmienkach.

Ďalšie výkonné počítače

Ak sa pozriete na zostavené hodnotenie, môžete vidieť, že nielen najvýkonnejší počítač na svete je čínsky vývoj. Okrem neho je v zozname ďalších 64 áut, ktoré boli vyrobené a fungujú na území tejto krajiny. Väčšina z najvýkonnejších zariadení (konkrétne 253) je nasadená na daný čas v Spojených štátoch amerických. Zaujímavý fakt, ktorá sa týka zástupcov zoznamu, je, že čipy od Intelu sú tu použité v ôsmich prípadoch z desiatich.

Tri roky - od júna 2013 - prvý riadok v Top500 superpočítačov sveta obsadil čínsky Tianhe-2. Jeho výkon je nad 33,8 Pflops, špičkový výkon je 54,9 Pflops. Zároveň stroj beží na procesoroch Intel, čo dalo dôvod povedať, že superpočítač v skutočnosti nie je úplne čínsky. Teraz sa však situácia radikálne zmenila.

AT Najnovšia verzia V Top500 zverejnenom 20. júna 2016 sa na prvom mieste umiestnil nový čínsky superpočítač - Sunway TaihuLight. V teste Linpack ukázal superpočítač výsledok 93 Pflops, to znamená, že takmer trikrát prekonal Tianhe-2. Špičkový výkon stroja je 125 Pflops.

Sunway TaihuLight je tu Národné centrum superpočítače vo Wuxi, dve hodiny jazdy od Šanghaja. Superpočítač má 10 miliónov jadier, ktoré tvoria 40 000 uzlov. Sunway TaihuLight je zároveň plne poháňaný procesormi navrhnutými a vyrobenými v Číne – ShenWei SW26010.

K vytvoreniu vlastných čipov by mohlo prispieť americké embargo, ktoré obmedzilo dodávky procesorov Intel do Číny.

„Nemyslím si, že embargo pomohlo,“ nesúhlasí Aleksey Lukashin, docent Katedry telematiky (Ústredného výskumného ústavu RTK) Polytechnickej univerzity Petra Veľkého v Petrohrade, vedúci superpočítača „SKC“. Centrum „Polytechnic“ existuje asi pred rokom. Procesor ShenWei sa samozrejme vyvíjal oveľa dlhšie, ale zavedenie externých sankcií by do určitej miery mohlo urýchliť proces vývoja. Nepriamo by mohla pomôcť aj prítomnosť západných procesorov v Číne , ktorý zrýchľuje reverzné inžinierstvo, a umožňuje aj nastavenie vlastnej výroby.Okrem vytvorenia vlastného procesora je dôležitým faktorom aj vývoj vlastného prepojenia, vysokorýchlostnej siete na výmenu dát medzi počítačmi, ktorá tiež s najväčšou pravdepodobnosťou ovplyvnil výkon superpočítača.“

Dodáva, že v Rusku zjavne neexistujú úplne domáce procesory, ktoré by sa dali použiť v superpočítačoch.

"Domnievam sa, že dnes je odpoveď skôr nie ako áno. Elbrus ešte nedosiahol požadované ukazovatele, ale z hľadiska prepojenia možno ako príklad uviesť komunikačnú sieť Angara, ktorá sa vyvíja v JSC NITSEVT," hovorí Alexej Lukashin. Úspešne pracujeme v oblasti implementácie globálnych projektov s využitím sily superpočítačov, čomu napomáha už získaná autorita na medzinárodnom trhu a aktívne zapojenie zahraničných kolegov a študentov medzinárodných magisterských programov do akademického procesu. ako Letná polytechnická škola“.

Čínske superpočítače momentálne obsadzujú prvé a druhé miesto v Top500. Americký Titan, inštalovaný v Oak Ridge National Laboratory, sa posunul na tretie miesto. V prvej desiatke sú aj superpočítače z Japonska, Švajčiarska, Nemecka a Saudskej Arábie.

Superpočítač Lomonosov-2 Moskovskej štátnej univerzity v aktuálnej verzii hodnotenia zaujíma 41. miesto, čo je o 10 riadkov nižšie ako doteraz. Je to tiež jediný ruský superpočítač v prvej stovke.

Klastrový superpočítač „Polytechnic RSC Tornado“, ktorý sa nachádza na Petrohradskej polytechnickej univerzite Petra Veľkého, obsadil v hodnotení 158. miesto. Nie je to tak dávno, čo Telecomblog navštívil Superpočítačové centrum Polytechnickej univerzity, správa môže byť

Treba poznamenať, že ešte v roku 2001 neboli čínske superpočítače v globálnom rebríčku vôbec. Teraz Čína prvýkrát predbehla Spojené štáty v počte áut na vrchole – je ich 167 oproti 165 pre Američanov.

Top500 podľa testu Linpack. Na rozdiel od predchádzajúcich 6 verzií hodnotenia sa zmenil líder zoznamu, prvé miesto obsadil čínsky superpočítač Sunway TaihuLight (神威 太湖之光) s výsledkom 93 petaflopov v teste Linpack (teoretický výkon je 125,4 petaflopov) . Jeho výkon je asi 3-krát vyšší ako výkon predchádzajúceho lídra zoznamu, čínskeho Tianhe-2.

Nový superpočítač vyvinulo Národné výskumné centrum pre paralelné počítačové inžinierstvo a technológie v Číne. Systém sa nachádza v Národnom superpočítačovom centre vo Wuxi v provincii Jiangsu vo východnej Číne.

Superpočítač je založený na nových čínskych procesoroch rodiny ShenWei - SW26010 s originálnou 64-bitovou architektúrou RISC, pravdepodobne vyrobené technológiou 28 nm. Každý procesor je vybavený 260 jadrami, beží na frekvencii 1,45 GHz a má výkon 3,06 teraflopov.

Procesor bol navrhnutý v Shanghai High Performance IC Design Center. Procesor pozostáva zo 4 podobných blokov jadier (skupiny jadier), prepojených vstavanou sieťou na čipe. Každý blok má jedno riadiace jadro (Management Processing Element, MPE), radič pamäte DDR3 (128 bitov) a 64 výpočtových jadier (Computing Processing Elements, CPE) v poli 8x8. Oba typy jadier majú mikroarchitektúru mimo poradia. Riadiace jadrá MPE podporujú vykonávanie operačného systému aj užívateľského kódu, využívajú 264-bitové vektorové operácie, obsahujú 32 KB L1 cache pre inštrukcie a dáta a 256 KB L2 cache. Výpočtové CPE jadrá môžu vykonávať iba užívateľský kód s 264-bitovými vektormi, využívajú 16 KB inštrukčnej cache a 64 KB dočasnej pamäte (Scratch Pad Memory). Každý zo 4 blokov jadier má prístup k 8 GB Náhodný vstup do pamäťe DDR3-2133, takže uzol má 32 GB RAM s celkovou šírkou pásma až 136,5 GB/s.

Výkon výpočtov SIMD na jadrách MPE je 16 plávajúcich operácií s dvojitou presnosťou (64-bit) na takt, na jadrách CPE - 8 operácií na takt. Celkový výkon jadier MPE pri 1,45 GHz môže dosiahnuť 23,2 gigaflops, jadrá CPE - 11,6 gigaflops.

Celkovo superpočítač využíva viac ako 10,6 milióna jadier v 40 960 jednoprocesorových uzloch v 40 výpočtových stojanoch. Každý stojan má 4 supernody, supernode pozostáva z 32 modulov s 8 uzlami v každom. Moduly majú chladenie vodou. O hlavnej sieti superpočítača je málo podrobností, je známe, že každý čip SW26010 má PCI Express 3 (16x) pripojenie do trojvrstvovej siete „Sunway Network“. Priemer siete - 7, "šírka pásma bisekcie" - 70 TB / s. Dongarra uviedol, že používa čipy a prepínače Mellanox Host Channel Adapter so šírkou pásma okolo 12 Gb/s (100 Gb/s) a latenciou rádovo 1 µs.

Výpočtová účinnosť pri HPL teste (Linpack) bola 74 % teoretického výkonu. Zároveň pri komplexnejšom teste HPCG systém ukázal len 0,3 % špičkovej úrovne (niektoré systémy dosahujú 1-3 %), čo poukazuje na relatívne pomalú pamäť a nedostatočnú šírku pásma siete. Pre SW26010 je pomer špičkových obvodov k šírke pásma pamäte 22,4 flopov/bajt (pre porovnanie, Intel Knights Landing má 7,2 flopov/bajt). Dongarra tiež poznamenal, že systém má relatívne málo RAM, len 1,3 PB (Tianhe-2 má 1,4 PB, americký Titan, ktorý už v Top500 okupuje 3. miesto, má 0,71 PB).

Priemerná spotreba superpočítača počas vykonávania HPL testu bola 15,3 MW (čo je o niečo menej ako 17 MW pre Tianhe-2), maximum bolo tesne pod 18 MW. Dongarra odhadol energetickú účinnosť na 6 gigaflops na watt (berúc do úvahy spotrebu CPU, pamäte a siete). Nový superpočítač

Čínsky superpočítač je postavený na základe mikroobvodov vlastnej výroby, nie sú v ňom žiadne komponenty vyrábané zahraničnými spoločnosťami. O to príjemnejšie pre predstaviteľov Nebeského impéria, pretože ich duchovné dieťa dostalo titul najrýchlejšieho počítača na svete. Tento fakt v podstate potvrdzuje úspechy v oblasti špičkových technológií, ktoré táto krajina za posledných pár rokov dosiahla. Dá sa povedať, že na základe technológie výroby polovodičov, ktorú Číňania dostali zo Spojených štátov, sa rozbehla výroba vlastných čipov, ktoré majú vysoký stupeň konkurencieschopnosť a kvalitu.

Svojím spôsobom výpočtový výkon nový šampión Sunway TaihuLight prekonáva svojho predchodcu (mimochodom tiež „čínskeho“) Tianhe-2 viac ako trojnásobne. Je schopný vykonávať 93 kvadriliónov výpočtových operácií za sekundu (inak známe ako petaflops). Najproduktívnejší a najvýkonnejší systém, ktorý dnes Spojené štáty majú, je asi päťkrát slabší ako Sunway TaihuLight. Teraz sa posunulo na tretie miesto na svete.

Pokiaľ ide o TaihuLight, má 41 000 procesorov, každý s 260 jadrami. Celkovo v jednom systéme pracuje 10,65 milióna jadier. Pre porovnanie: americký špičkový stroj má 560 000 jadier. Ak hovoríme o množstve pamäte, čísla nie sú také pôsobivé - na všetko má tento superpočítač iba 1,3 petabajtov. Opäť pre porovnanie oveľa menej výkonný superpočítač K, ktorý má výkon 10 petaflops, má 1,4 petabajtu RAM. Túto skutočnosť však nemožno pripísať nedostatkom. Ukazuje sa, že nový systém veľmi úsporné z hľadiska spotreby energie. Vyžaduje len 15,3 megawattov energie. Na pohon bývalého šampióna, superpočítača Tianhe-2 s výkonom 33 petaflopov, je potrebných 17,8 megawattov.

Dôležitým faktorom je, že TaihuLight je založený výlučne na čínskych polovodičoch:

"Má inú architektúru. Číňania si ho postavili sami," vysvetľuje Jack Dongarra, profesor z University of Tennessee a tvorca systému, ktorý sa používa na prideľovanie hodnotenia všetkým existujúcim superpočítačom na svete, vysvetľuje Jack Dongarra, korešpondent agentúry Bloomberg. Dongarra.

USA zakázali export vysokovýkonných procesorov do Číny

Predchádzajúci najrýchlejší počítač Tianhe-2, ktorý tiež patrí Číne, bol založený na procesoroch Intel. Minulý rok boli plány na modernizáciu Tinahe-2, Číňania chceli zvýšiť jeho výkon. V apríli 2015 sa však vláda USA rozhodla zakázať vývoz všetkých druhov výkonné procesory. Americké ministerstvo obchodu uviedlo, že vývoz takéhoto tovaru a technológií „koná na úkor“ záujmov národnej bezpečnosti USA. Navyše Američania začali mať podozrenie, že jeden zo superpočítačov predchádzajúcej generácie – Tianhe-1A – „bol použitý na vybudovanie čínskej jadrovej energie“.

Možno je na tom niečo pravdy, pretože sa verí, že superpočítače v Spojených štátoch aj v Číne sú neoddeliteľnou súčasťou systému národnej bezpečnosti a prostriedkom na vykonávanie pokročilého vedeckého výskumu. Ich ciele môžu byť mierové, napríklad predpovedanie klimatických zmien alebo navrhovanie nových priemyselných produktov atď. Je tiež možné, že superpočítače pomáhajú vedcom pri vývoji najnovších vojenských technológií vrátane vytvárania jadrových zbraní alebo skúmania problémov kybernetickej bezpečnosti. Tvorcovia TaihuLight hovoria, že sa bude využívať v oblasti priemyselnej výroby, štúdia biomedicínskych problémov a modelovania zeme.

Treba poznamenať, že investície do vývoja a tvorby vysokovýkonných polovodičových procesorov, ktoré Čína robí už niekoľko v posledných rokoch podávali vynikajúce výsledky. V roku 2001 bola táto krajina vo svetovom rebríčku superpočítačov v Top 500. Teraz má v ratingovom zozname 167 pozícií, pre USA 165. Vývoj a tvorba TaihuLight prebiehala podľa takzvaného „863. programu“. Ide o čínsky vládny projekt, ktorého cieľom je ukončiť závislosť krajiny od zahraničných technológií.

Buďte informovaní o všetkých dôležitých udalostiach United Traders – prihláste sa na odber našich