Σπίτι Χρήση Ο ισχυρότερος υπερυπολογιστής στον κόσμο λειτουργεί με κινέζικους επεξεργαστές. Η Κίνα δημιούργησε τον πιο ισχυρό υπερυπολογιστή

Ο ισχυρότερος υπερυπολογιστής στον κόσμο λειτουργεί με κινέζικους επεξεργαστές. Η Κίνα δημιούργησε τον πιο ισχυρό υπερυπολογιστή

Στη βιομηχανία HPC (κυρίως στις ΗΠΑ), σήμερα διακρίνονται τρεις κύριοι τομείς εργασίας: η κυκλοφορία εμπορικών δειγμάτων υπερυπολογιστών υπερπέτα κλίμακας και προσαρμοσμένων εξειδικευμένων συστημάτων υπολογιστών (2012-2017) με βάση τα αποτελέσματα του προγράμματος DARPA HPCS (2002). -2010) και παρόμοια προγράμματα στην Κίνα και την Ιαπωνία. δημιουργία νέων τεχνολογιών exascale στο πλαίσιο του προγράμματος DARPA UHPC (2010-2020) για συστήματα με ειδική απόδοση 50 GFLOPS/W. καθώς και την εφαρμογή του προγράμματος DARPA STARnet (2013–2025/2030) για τη βελτιστοποίηση της χρήσης των τεχνολογιών CMOS και τη δημιουργία μιας νέας βάσης σχεδιασμού στοιχείων της εποχής μετά τον Moore για χρήση πρώτα σε έργα exascale και στη συνέχεια όταν δημιουργώντας υπερυπολογιστές των επιπέδων zetta και yotta.

Τα αποτελέσματα της εργασίας της πρώτης κατεύθυνσης μπορούν να εντοπιστούν σε εμπορικά συστήματα όπως τα IBM Power 775 και Сray XE/XT, Cray XC30. K-υπολογιστής; Tianhe-1A και Tianhe-2 (TH-2). Επιπλέον, στα δύο τελευταία, τρία πιο σημαντικά χαρακτηριστικά των μελλοντικών συστημάτων exascale είναι πιο αισθητά: η ιεραρχία, η υβριδικότητα και η ετερογένεια. Ιεραρχία - η κατανομή των επιπέδων της ιεραρχίας του δικτύου, στην οποία τα στοιχεία συνδέονται στενά σύμφωνα με τον τύπο "κάθε με κάθε" μέσω δρομολογητών με μεγάλο αριθμό θυρών για δίκτυα διαφορετικά επίπεδαιεραρχία και υψηλή συνολική απόδοση. Υβριδικότητα - η χρήση μικροεπεξεργαστών με πυρήνες σε κόμβους υπολογιστών διαφορετικού τύπου. Ετερογένεια - η χρήση ετερογενών τμημάτων σε υπερυπολογιστές, που επικεντρώνονται στην επίλυση ενός συγκεκριμένου τύπου προβλήματος και υλοποιούνται με βάση εξειδικευμένους μικροεπεξεργαστές, δίκτυα και συσκευές. Στο TH-2, ένα τέτοιο ετερογενές τμήμα σε σχέση με ολόκληρο το σύστημα υλοποιείται με βάση αρκετούς χιλιάδες μικροεπεξεργαστές πολλαπλών νημάτων FT-1500 δικής του παραγωγής.

Ιδιαίτερο ενδιαφέρον για το TH-2 είναι η υβριδική ιδιότητα που σχετίζεται με τη χρήση μικροεπεξεργαστών μάζας πολλαπλών πυρήνων Xeon Phi στους υπολογιστικούς κόμβους αυτού του συστήματος - ο TH-2 είναι πλέον ο ηγέτης στον αριθμό των χρησιμοποιούμενων μικροεπεξεργαστών αυτού του τύπου. Αυτός ο μικροεπεξεργαστής, ο οποίος έχει μέγιστη απόδοση 1 TFLOPS, και οι λόγοι για τους οποίους συμπεριλήφθηκε στο TH-2 αξίζουν προσεκτική ανάλυση, ιδίως για να διευκρινιστούν οι απαιτήσεις για μελλοντικούς μικροεπεξεργαστές με απόδοση 10–20 TFLOPS, οι οποίοι θα γίνουν το βασικό στοιχεία των συστημάτων exascale.

Tianhe-2 - υβριδική ιδιότητα

Ο κόμβος υπολογισμού TH-2 είναι δύο μικροεπεξεργαστές Xeon Ivy Bridge 12 πυρήνων (2,2 GHz, μέγιστη απόδοση 211,2 GFLOPS, δύο νήματα σε κάθε πυρήνα) και έξι Xeon Phi 57 πυρήνων (1,1 GHz, 1,003 TFLOPS, τεχνολογία 22 nm). Ο κόμβος υπολογιστών έχει 88 GB μνήμης RAM, εκ των οποίων τα 64 GB είναι μνήμη Ivy Bridge και τα 24 GB είναι μνήμη Xeon Phi.

Μικροεπεξεργαστής Intel Xeon Phi

Μικρο Επεξεργαστής XeonΗ πρώτη γενιά Phi έχει 61 πυρήνες (4 νήματα σε κάθε πυρήνα, συσκευή SIMD 512 bit), 8 ελεγκτές μνήμης με δύο κανάλια 32 bit το καθένα. Η δεύτερη γενιά αυτής της οικογένειας θα κατασκευαστεί με τεχνολογία 14 nm. Το Xeon Phi έχει δύο αγωγούς εκτέλεσης εντολών: για λειτουργίες SIMD και κινητής υποδιαστολής. για πράξεις ακέραιου αριθμού. Είναι δυνατή η έκδοση δύο οδηγιών σε αυτούς τους αγωγούς ανά κύκλο. Σε κάθε πυρήνα, οι εντολές εκτελούνται με σειρά (κατά σειρά), η οποία είναι απλούστερη από την εκτέλεση εκτός σειράς (εκτός σειράς), όπως εφαρμόζεται στους υπερβαθμωτούς μικροεπεξεργαστές. Κάθε πυρήνας έχει μια κρυφή μνήμη εντολών και μια κρυφή μνήμη L1 δεδομένων 32 KB το καθένα, καθώς και μια κρυφή μνήμη L2 512 KB, μια προσωρινή μνήμη ετικέτας διευθύνσεων δεδομένων (χρησιμοποιείται για τη διασφάλιση της συνοχής της μνήμης L2 διαφορετικών πυρήνων μικροεπεξεργαστή). Δεν υπάρχει προσωρινή μνήμη L3.

Εσωτερικό δίκτυομικροεπεξεργαστής - δέκα μονόδρομοι δακτύλιοι, πέντε προς τη μία κατεύθυνση και πέντε προς την άλλη κατεύθυνση. Η δομή πέντε μονοκατευθυντικών δακτυλίων περιλαμβάνει: δακτύλιο δεδομένων 64 byte, δύο δακτυλίους εντολών (ανάγνωση και εγγραφή) και διευθύνσεις. δύο δακτύλιοι μηνυμάτων που επιβεβαιώνουν την εκτέλεση εντολών, ελέγχοντας τη ροή των μεταδόσεων στο δαχτυλίδι, διασφαλίζοντας τη συνοχή της κρυφής μνήμης L2. Το εύρος ζώνης δικτύου στο chip είναι 220 GB / s, το συνολικό εύρος ζώνης των διεπαφών οκτώ ελεγκτών μνήμης είναι 352 GB / s.

Οι υπολογιστικοί κόμβοι TH-2 περιέχουν συνολικά 32.000 μικροεπεξεργαστές Ivy Bridge και 48.000 μικροεπεξεργαστές Xeon Phi - συνολικά 3.120.000 πυρήνες, από τους οποίους οι 384.000 είναι «βαρείς» υπερκλιμακωτοί πυρήνες Ivy Bridge και 2.000 με μικρό αριθμό Phi. των νημάτων, αλλά ισχυρές συσκευές SIMD. Η μέγιστη απόδοση του TH-2, με βάση την ταχύτητα ρολογιού και τις λειτουργίες ανά ρολόι, είναι 54,9 PFLOPS, εκ των οποίων τα 6,75 είναι Ivy Bridge και τα 48,14 είναι μικροεπεξεργαστές Xeon Phi.

Στη δοκιμή HPL (Linpack, βαθμολογία Top500) για τον TH-2, επιτεύχθηκε πραγματική απόδοση 30,65 PFLOPS - η συμβολή του Xeon Phi είναι ξεκάθαρα ορατή, αφού ακόμη και η μέγιστη απόδοση των υπερβαθμωτών μικροεπεξεργαστών είναι μόνο 6,75 PFLOPS. Σε δύο πραγματικά προβλήματα (υδροδυναμική και μικροστροβιλισμός πλάσματος σε έναν τόρο), η απόδοση ενός Xeon Phi είναι μόνο το 70 και το 80% της ανεπτυγμένης απόδοσης δύο Γεφυρών Ivy, αντίστοιχα. Με άλλα λόγια, η πραγματική απόδοση του Xeon Phi είναι 140-160% της πραγματικής απόδοσης του Ivy Bridge. Αυτή η αναλογία δικαιολογεί πλήρως τη χρήση του Xeon Phi, αλλά δεν αντιστοιχεί στην αναλογία της μέγιστης απόδοσης - είναι πέντε φορές μεγαλύτερη.

Γιατί χρησιμοποιήθηκε το Xeon Phi στο TH-2, ποιος είναι ο λόγος για τη δημοτικότητα αυτού του μικροεπεξεργαστή, ποια είναι τα δυνατά και τα αδύνατα σημεία του;

Στην εργασία για τη δοκιμή SpMV του πολλαπλασιασμού μιας αραιής μήτρας με ένα διάνυσμα, το Xeon Phi συγκρίνεται με υπερβαθμωτούς μικροεπεξεργαστές και γραφικούς συνεπεξεργαστές. Το τεστ SpMV ήταν πάντα σημαντικό στους επαγγελματικούς κύκλους, αλλά τώρα θα γίνει ιδιαίτερα δημοφιλές μετά την κυκλοφορία του έργου του Jack Dongarra (συγγραφέας της κατάταξης Top500) στις αρχές Ιουλίου 2013, ο οποίος παραδέχτηκε ότι το τεστ Linpack ήταν ανεπαρκές σύγχρονες εφαρμογέςκαι ότι τα αποτελέσματά του είναι στην πραγματικότητα παραπλανητικά για τους προγραμματιστές, τους χρήστες και τους υπεύθυνους χάραξης πολιτικής. Ο Dongarra πρότεινε να εισαχθεί μια νέα βαθμολογία με βάση τη δοκιμή SpMV, στην οποία υπάρχει εντατική ακανόνιστη εργασία με τη μνήμη, η οποία μειώνει σημαντικά (σε σύγκριση με το Linpack) το επίπεδο της ανεπτυγμένης πραγματικής απόδοσης σε σχέση με την κορυφή, η οποία εξαρτάται επίσης από τον τύπο πλήρωσης με μη μηδενικά στοιχεία της αραιής μήτρας.

Στην εργασία, για 22 αραιούς πίνακες διαφορετικής πλήρωσης με μη μηδενικά στοιχεία, δίνονται τα αποτελέσματα για το Xeon Phi (πλακέτα SE10P, μέγιστη απόδοση - 61 (πυρήνας) x 16 (λειτουργίες / ρολόι) x 1,05 GHz = 1024 GFLOPS) σε σύγκριση με διαφορετικούς μικροεπεξεργαστές: NVIDIA Tesla C2050 (Fermi) - 448 πυρήνες CUDA, μέγιστη απόδοση 515 GFLOPS. Tesla K20 (Kepler) - 2.496 πυρήνες CUDA, 1 TFLOPS; σανίδα με δύο Intel Xeon X5680 (Westmere) - 12 πυρήνες, 320 GFLOPS. πλακέτα με δύο Intel Xeon E5-2670 (Sandy Bridge) - 16 πυρήνες, 330 GFLOPS. Διαπιστώθηκε ότι η πραγματική απόδοση του Xeon Phi φτάνει από 2,5 έως 22 GFLOPS σε διαφορετικούς πίνακες. Σε 11 πίνακες από τους 22, ο επεξεργαστής Xeon Phi ξεπερνά τις επιδόσεις του Kepler GPU, αλλά όχι περισσότερο από δύο φορές. Οι GPU της Kepler είναι συνήθως καλύτερες από τις Fermi GPU και οι Fermi GPU είναι καλύτερες από το SandyBridge, το οποίο είναι δύο φορές καλύτερο από το Westmere. Ταυτόχρονα, το μερίδιο της πραγματικής απόδοσης από τη μέγιστη απόδοση στη δοκιμή SpMV για όλους τους μικροεπεξεργαστές είναι πολύ χαμηλό: Westmere - 0,78–1,09%. SandyBridge - 1,36–2,12%; GPU Fermi - 0,68-2,52%; GPU Kepler - 0,5–1,3%; Xeon Phi - 0,25–2,25%.

Πρέπει να παραδεχτούμε ότι στις περισσότερες περιπτώσεις το Xeon Phi αποδείχθηκε πιο παραγωγικό στη δοκιμή SpMV, αλλά το κέρδος δεν είναι τόσο μεγάλο και σε ορισμένες περιπτώσεις υπήρξε απώλεια. Πλέον πιθανή αιτίαΑυτός είναι ο χρόνος που αφιερώνεται στην εργασία με τη μνήμη - μια συσκευή SIMD, από την οποία αναμενόταν υψηλή πραγματική απόδοση, αποδεικνύεται ότι είναι χωρίς τελεστές και είναι αδρανής.

Οι ανοιχτές πηγές δίνουν μια γενική ιδέα για τις δυνατότητες του Xeon Phi, ωστόσο, τα αποτελέσματα μιας συστηματικής μελέτης των δυνατοτήτων του δεν μπόρεσαν να βρεθούν, επομένως χρειάστηκε τη δική του έρευνα.

Αποτελέσματα δοκιμής Xeon Phi

Για ανάλυση, λήφθηκε ένας μικροεπεξεργαστής Xeon Phi 5110P 1,05 GHz με μέγιστη απόδοση ενός πυρήνα 16,8 GFLOPS και συνολικά 1,008 TFLOPS. Συγκρίθηκε με τον επί του παρόντος διαθέσιμο κόμβο δύο υποδοχών με 8-πύρηνες υπερκλιμακωτούς μικροεπεξεργαστές Xeon E5-2660 Sandy Bridge (2,2 GHz, κορυφαία απόδοση πυρήνα - 17,6 GFLOPS), ένας σύγχρονος του Xeon Phi.

Η μελέτη ξεκίνησε με μια αξιολόγηση της αποτελεσματικότητας του υποσυστήματος μνήμης και των λειτουργικών μονάδων σε δοκιμές με σκόπιμα μεταβαλλόμενο φορτίο (βλ. πλαϊνή γραμμή "Αξιολόγηση σε δοκιμές με μεταβλητό φορτίο"). Οι εκτιμήσεις που προέκυψαν μας εξέπληξαν με απροσδόκητα μεγάλες τιμές λανθάνουσας κατάστασης για τον πυρήνα XeonPhi κατά την εκτέλεση λειτουργιών μνήμης σε περίπτωση κακού εντοπισμού, καθώς και χαμηλή πραγματική απόδοση στη δοκιμή πολυωνύμου Horner. Όλα αυτά οδήγησαν σε πρόσθετη έρευνα.

Αξιολόγηση σε δοκιμές με μεταβλητό φορτίο

Η δοκιμή με τη βοήθεια επιφανειών APEX (Apex-map test) σάς επιτρέπει να προσδιορίσετε τον αριθμό των κύκλων επεξεργαστή που δαπανώνται σε μία πρόσβαση μνήμης για ανάγνωση, ανάλογα με τη χωρική και χρονική τοποθεσία των προσβάσεων που συντίθενται από τη δοκιμή. Για έναν πυρήνα Xeon Phi και Sandy Bridge, τέτοιες επιφάνειες είναι παρόμοιες, αλλά διαφέρουν ως προς τα χαρακτηριστικά -- ο πίνακας δείχνει τα χαρακτηριστικά των ακραίων σημείων των επιφανειών APEX: L - καλύτερος χωρικός και χρονικός εντοπισμός. G - ο χειρότερος ταυτόχρονα χωρικός και χρονικός εντοπισμός. F - καλή χρονική και κακή χωρική εντόπιση. T - κακός χρονικός και καλός χωρικός εντοπισμός.

Τραπέζι. Καθυστερήσεις στην εκτέλεση αιτημάτων ανάγνωσης σε λειτουργίες ορίου

Σημεία εντοπισμού	Xeon Phi			Xeon Sandy Bridge
Σημεία εντοπισμού	1 νήμα	60 κλωστές	120 νήματα	1 νήμα	16 κλωστές	32 νήματα
Σημείο Λ	1,7	0,2	0,3	1,1	0,1	0,1
Σημείο Τζι	442,8	8,6	4,6	229,8	15,4	15,9
Σημείο ΣΤ	48,1	2,0	0,8	7,5	0,8	0,5
Σημείο Τ	5,1	0,2	0,2	1,9	0,4	0,4

Η καλύτερη επιφάνεια APEX θα πρέπει να έχει επίπεδο σχήμα - οι τιμές στα σημεία L, G, F και T δεν πρέπει να διαφέρουν πολύ και να είναι όσο το δυνατόν μικρότερες. Ωστόσο, όπως προκύπτει από τον πίνακα, και οι δύο μικροεπεξεργαστές σαφώς δεν παρέχουν τέτοιες ιδιότητες. Επιπλέον, αποδείχθηκε ότι στα σημεία G και F για το Xeon Phi υπάρχουν μεγάλες καθυστερήσεις, κάτι που ήταν απροσδόκητο, ειδικά επειδή η συχνότητα ρολογιού του Xeon Phi είναι διπλάσια.

Με την αύξηση των πυρήνων και των νημάτων που χρησιμοποιούνται από τη δοκιμή Apex-map, η ποιότητα των επιφανειών APEX βελτιώνεται και οι παρατηρούμενες καθυστερήσεις στην εκτέλεση λειτουργιών μνήμης μειώνονται αισθητά. Η ευθυγράμμιση των χαρακτηριστικών των μικροεπεξεργαστών γίνεται σε 120 νήματα στο Xeon Phi (μπορείτε να εκτελέσετε 240 νήματα) και σε 16 νήματα στο Sandy Bridge. Ταυτόχρονα, στο σημείο G της εντατικής ακανόνιστης εργασίας με τη μνήμη, ο επεξεργαστής Xeon Phi είναι πλέον αισθητά ανώτερος του SandyBridge. Αυτό υποδηλώνει ότι σε εργασίες με εντατική ακανόνιστη εργασία με μνήμη, το Xeon Phi έχει ένα πλεονέκτημα ακόμη και σε σχέση με δύο Sandy Bridge, αλλά αυτό επιτυγχάνεται μόνο όταν τρέχουν δέκα φορές περισσότερα νήματα σε αυτό από ό,τι σε ένα ζευγάρι Sandy Bridge. Αυτό το αποτέλεσμα ήταν αναμενόμενο.

Η ανεπτυγμένη πραγματική απόδοση εξαρτάται από τον εντοπισμό στο χώρο και το χρόνο των προσβάσεων στη μνήμη και ο εντοπισμός καθορίζεται από τη χρήση ορισμένων μοτίβων πρόσβασης δεδομένων σε προγράμματα. Η πραγματική απόδοση εξαρτάται επίσης από την ισορροπία στο πρόγραμμα των υπολογιστικών πράξεων και των λειτουργιών πρόσβασης στη μνήμη. Εάν υπάρχουν πολλές υπολογιστικές λειτουργίες, τότε στο πλαίσιο της εκτέλεσής τους, μπορείτε να αποκρύψετε το κόστος των προσβάσεων στη μνήμη. Για να εκτιμηθεί ο αντίκτυπος στην πραγματική απόδοση του ενός και του άλλου από τους αναφερόμενους παράγοντες, η εφαρμοσμένη μεθοδολογία χρησιμοποιεί δύο ομάδες δοκιμών από το σετ Eurobench, στις οποίες το φορτίο στον υπό δοκιμή εξοπλισμό αλλάζει σκόπιμα.

Για να εκτιμηθεί η επίδραση του προτύπου πρόσβασης στη μνήμη, χρησιμοποιείται μια ομάδα δοκιμών πολλαπλασιασμού διανυσμάτων στοιχείο προς στοιχείο, στην οποία η πρόσβαση στα διανυσματικά στοιχεία γίνεται πιο δύσκολη: ένα μόνο βήμα, βήμα 3, βήμα 4, ανά διάνυσμα δείκτη. Είναι σαφές ότι με μια τέτοια επιπλοκή πρόσβασης, θα πρέπει να συμβεί υποβάθμιση της απόδοσης. Αυτό συμβαίνει. Καθώς το μήκος του διανύσματος αυξάνεται, η απόδοση στη δοκιμή με ένα μόνο βήμα αλλάζει ως εξής: Xeon Phi - αυξάνεται πρώτα στα 600 MFLOPS και μετά πέφτει στα 200 MFLOPS. Sandy Bridge - αυξάνεται στα 3000 MFLOPS και στη συνέχεια πέφτει στα 500 MFLOPS. Όταν η πρόσβαση γίνεται πιο περίπλοκη, η υποβάθμιση της απόδοσης σε σύγκριση με τη δοκιμή με ένα μόνο βήμα είναι η εξής: Xeon Phi - πέφτει πρώτα στο επίπεδο των 100 MFLOPS και με αύξηση του μήκους του διανύσματος - σε 30 και 10 MFLOPS; Sandy Bridge - πτώση σε 1,5 GFLOPS (πρόσβαση σε βήματα των 3 ή 4) και 700 MFLOPS (πρόσβαση κατά δείκτη-διάνυσμα), με αύξηση του μήκους του διανύσματος - πτώση στο επίπεδο των 200–50 MFLOPS. Έτσι, στο καλό μοτίβοπρόσβαση στη μνήμη, η απόδοση του πυρήνα Xeon Phi είναι 2,5–5 φορές χειρότερη από τον πυρήνα Sandy Bridge και όταν το πρότυπο υποβαθμίζεται, υποβαθμίζεται 6–10 φορές, ενώ το Sandy Bridge υποβαθμίζεται 2–10 φορές.

Για να εκτιμηθεί ο αντίκτυπος της ισορροπίας των υπολογιστικών λειτουργιών και των λειτουργιών μνήμης, χρησιμοποιήθηκε μια ομάδα δοκιμών με αύξηση του αριθμού των υπολογιστικών λειτουργιών στην πρόσβαση στη μνήμη. Η βασική δοκιμή αυτής της ομάδας είναι ο κατά στοιχεία πολλαπλασιασμός των διανυσμάτων με ένα βήμα μονάδας πάνω από τα στοιχεία. Περαιτέρω, στις δοκιμές της ομάδας, το ποσοστό των υπολογιστικών πράξεων αυξήθηκε. Τεστ ορίου - υπολογισμός για κάθε στοιχείο του διανύσματος πολυωνύμου 9ου βαθμού σύμφωνα με το σχήμα του Horner. Σε αυτή τη δοκιμή, υπάρχουν 18 υπολογιστικές πράξεις ανά πρόσβαση στη μνήμη, είναι δυνατή η χρήση πράξεων πολλαπλασιασμού-προσθήκης, οι οποίες στους σύγχρονους πυρήνες εκτελούνται συνήθως με ρυθμό ενός κύκλου ρολογιού. Ένας τέτοιος υπολογισμός συνήθως σας επιτρέπει να πλησιάσετε πιο κοντά στην κορυφαία απόδοση του πυρήνα. Στις μελέτες που πραγματοποιήθηκαν, αυτή η δοκιμή μας επέτρεψε πραγματικά να αποκτήσουμε τη μέγιστη πραγματική απόδοση, η οποία, επιπλέον, εξαρτάται ασθενώς από το μήκος του διανύσματος: Xeon Phi - περίπου 3 GFLOPS (17,86% της κορυφής), Γέφυρα Sandu - περίπου 9 GFLOPS (51,14% της αιχμής).

Η πραγματική απόδοση που αναπτύχθηκε στο Xeon Phi, ωστόσο, αποδείχθηκε απροσδόκητα μικρή.

Ανατόλι Μιστσένκοφ ([email προστατευμένο]) - SPbGPU (Αγία Πετρούπολη).

Είναι γνωστό ότι το Xeon Phi, χάρη στις συσκευές SIMD που είναι ενσωματωμένες στους πυρήνες, έχει υψηλή συνολική απόδοση αιχμής, αλλά τι εμποδίζει την πραγματική απόδοση να πλησιάσει την κορυφή; Πώς να πλησιάσετε τη μέγιστη απόδοση σε μια πραγματική εφαρμογή; Έγιναν υποθέσεις ότι η απάντηση στο πρώτο ερώτημα θα παρείχε λεπτομερή ανάλυση των αιτιών του μεγάλες καθυστερήσειςέχει πρόσβαση στη μνήμη και η απάντηση στο δεύτερο θα σας βοηθήσει να μάθετε την ισορροπία των υπολογιστικών πράξεων και των λειτουργιών μνήμης στις οποίες μπορείτε να πλησιάσετε τη μέγιστη απόδοση.

Για να αναλύσετε τις καθυστερήσεις στην εκτέλεση λειτουργιών μνήμης, μπορείτε να χρησιμοποιήσετε τη δοκιμή ταυτόχρονης διέλευσης Ν λιστών:

while(count - > 0) (list1 = list1.next; list2 = list2.next; ... listN = listN.next )

Ακολουθώντας τον επόμενο σύνδεσμο σε κάθε λίστα ακολουθεί μια νέα μη κανονική πρόσβαση στη μνήμη. Όταν οι εντολές εκτελούνται διαδοχικά, κάτι που είναι χαρακτηριστικό για τον πυρήνα Xeon Phi, λόγω εξάρτησης από πληροφορίες, οι δηλώσεις του σώματος του βρόχου θα εκτελούνται διαδοχικά. Όταν οι εντολές εκτελούνται εκτός σειράς, κάτι που είναι τυπικό για τον πυρήνα Sandy Bridge, οι εντολές εκτελούνται παράλληλα, αλλά μόνο εφόσον το επιτρέπει η μικροαρχιτεκτονική του πυρήνα. Μια τέτοια παραλληλοποίηση στο SandyBridge αυξάνει τη ροή των λειτουργιών μνήμης, αυτό οδηγεί στην εμφάνιση ανοχής πυρήνα - ορατό από το πρόγραμμαμειώνονται οι καθυστερήσεις στις λειτουργίες της μνήμης.

Τα αποτελέσματα της αξιολόγησης σε μια τέτοια δοκιμή δίνονται στο Σχ. 1 (XeonPhi, χωρίς ανοχή) και εικ. 2 (Sandy Bridge, υπάρχει ανοχή). Με μεγάλες λίστες και μεγάλο αριθμό από αυτές, το χάσμα στις τιμές καθυστέρησης φτάνει τις 100 φορές. Αυτή είναι η «τιμή» της απλότητας ή της «ελαφρότητας» του πυρήνα του μικροεπεξεργαστή Xeon Phi, που μπορεί να αναιρέσει τα πλεονεκτήματα κορυφαίας απόδοσης του μικροεπεξεργαστή.

Εάν μετατρέψουμε τη δοκιμή διέλευσης των λιστών N εισάγοντας πολλά νήματα και σε καθένα από αυτά εκχωρείται ένας ορισμένος αριθμός λιστών διέλευσης, τότε μπορούμε επίσης να δούμε την εμφάνιση μιας ιδιότητας ανοχής - μείωση των καθυστερήσεων πρόσβασης στη μνήμη. Αυτό οφείλεται στην αύξηση της ροής των λειτουργιών μνήμης, αλλά ήδη λόγω της ταυτόχρονης εκτέλεσης πολλών νημάτων φωτός με σπείρωμα στον πυρήνα, για τα οποία το υλικό του πυρήνα παρέχει αμελητέους χρόνους μεταγωγής. Στον πυρήνα Xeon Phi, για δύο νήματα, η καθυστέρηση μειώνεται σε 200 κύκλους, για τρεις - σε 145 και για τέσσερις - σε 100. Στον πυρήνα Sandy Bridge, μπορούν να ξεκινήσουν μόνο δύο ελαφρά νήματα, γεγονός που σας επιτρέπει να μειώσετε η καθυστέρηση στους 20-40 κύκλους. Έτσι, ακόμη και το μικρό multithreading του πυρήνα Xeon Phi μπορεί να μειώσει σημαντικά τις καθυστερήσεις πρόσβασης στη μνήμη, φέρνοντάς τες στο επίπεδο να υστερούν σε σχέση με το Sandy Bridge κατά 2–5 φορές αντί για 100 φορές, που ήταν διαθέσιμες στη δοκιμαστική έκδοση ενός νήματος.

Η γνώση των χρόνων καθυστέρησης σε λειτουργίες μονού νήματος και πολλαπλών νημάτων σάς επιτρέπει να βελτιστοποιείτε τα προγράμματα εξισορροπώντας τις υπολογιστικές λειτουργίες και τις λειτουργίες μνήμης. Για τον προσδιορισμό μιας τέτοιας ισορροπίας, χρησιμοποιήθηκε μια δοκιμή για τον υπολογισμό πολυωνύμων σύμφωνα με το σχήμα του Horner. Διαπιστώθηκε εάν είναι δυνατό να αυξηθεί η πραγματική απόδοση του Xeon Phi αυξάνοντας τον βαθμό του πολυωνύμου, τον αριθμό των πυρήνων και τον αριθμό των νημάτων που χρησιμοποιούνται στον πυρήνα.

Τα αποτελέσματα για πολυώνυμα του 10ου (20 λειτουργίες ανά πρόσβαση στη μνήμη) και του 32ου βαθμού (64 λειτουργίες ανά πρόσβαση στη μνήμη) φαίνονται στο Σχήμα. 3. Μπορεί να φανεί ότι για έναν μεμονωμένο πυρήνα, η απόδοση αυξάνεται αισθητά με την αύξηση του αριθμού των νημάτων στον πυρήνα ακόμη και με τόσο μεγάλο αριθμό υπολογιστικών πράξεων. Αυτό δεν ήταν προφανές εκ των προτέρων, και για μεγάλα διανυσματικά μήκη σε ένα πολυώνυμο 10ου βαθμού, δεν υπάρχει πραγματικά τέτοια αύξηση. Η αύξηση του βαθμού του πολυωνύμου στο 32 επιτρέπει, όταν χρησιμοποιούνται 4 νήματα στον πυρήνα, να επιτευχθεί το 70% της μέγιστης απόδοσης σε πραγματική απόδοση. Η αύξηση του μήκους του διανύσματος, που σημαίνει ότι υπερβαίνει την κρυφή μνήμη L2 του πυρήνα, μειώνει αισθητά την πραγματική απόδοση, αλλά με ένα μεγάλο ποσοστό υπολογιστικών πράξεων (πολυώνυμο 32ου βαθμού), αυτό είναι αισθητό σε πολύ μικρότερο βαθμό , αν και η αστάθεια της μετρούμενης απόδοσης εμφανίζεται σε μεγάλα διανυσματικά μήκη.

Στη συνέχεια πραγματοποιήθηκαν μελέτες για την αξιολόγηση της αποτελεσματικότητας της χρήσης πολλαπλών πυρήνων και νημάτων σε δοκιμές με μεγάλο μερίδιο υπολογιστικών λειτουργιών. Το μέγεθος του διανύσματος λήφθηκε στο 1 MB, το οποίο είναι μεγαλύτερο από τη μνήμη cache L2 του πυρήνα και προϋποθέτει έναν ορισμένο αριθμό αστοχιών πρόσβασης L2. Η εξυπηρέτηση αστοχιών όσον αφορά τη διασφάλιση της συνοχής της κρυφής μνήμης όλων των πυρήνων στο Xeon Phi είναι μια πολύπλοκη και δαπανηρή διαδικασία, ανάλογα με εύρος ζώνηςδίκτυο σε τσιπ, και δεν είναι τόσο υπέροχο. Τα ληφθέντα αποτελέσματα μετρήσεων μέχρι στιγμής έως 32 πυρήνες έχουν δείξει ότι για ένα διάνυσμα 1 MB, η πραγματική απόδοση αυξάνεται με την αύξηση του αριθμού των εμπλεκόμενων πυρήνων και νημάτων και διατηρείται σε καλό επίπεδο για ένα πολυώνυμο με 32ο βαθμό , και για ένα πολυώνυμο 10ου βαθμού, η υποβάθμιση είναι αισθητή ήδη μετά από 16 πυρήνες.

Μέχρι στιγμής, σχεδόν τέλεια αποτελέσματα σε πραγματική απόδοση έχουν επιτευχθεί μόνο σε μια δοκιμή όπως a[i] = a[i]*b[i] - c[i] με μήκος διανύσματος 16 στοιχείων - 987 GFLOPS (97% των η κορυφή). Σε αυτήν τη δοκιμή, δεν υπάρχουν καθόλου προσβάσεις στη μνήμη, οι λειτουργίες SIMD ξεκινούν σε κάθε κύκλο, αν και βρίσκονται στο σώμα του βρόχου. Επηρεάζει τη δυνατότητα εκτέλεσης δύο εντολών ανά κύκλο, επομένως το κόστος διαχείρισης του κύκλου δεν είναι ορατό εδώ, καλύπτονται από την εκτέλεση λειτουργιών SIMD.

Η διεξαγωγή δοκιμών μας επέτρεψε να βγάλουμε τα ακόλουθα συμπεράσματα:

Ένας μεγάλος αριθμός πυρήνων και νημάτων του Xeon Phi παρέχει την υψηλότερη ανοχή του σε σχέση με τους υπερβαθμωτούς μικροεπεξεργαστές, οι οποίοι μπορούν να χρησιμοποιηθούν για την αποτελεσματική επίλυση πληροφοριών-αναλυτικών και άλλων ακέραιων προβλημάτων με εντατική ακανόνιστη εργασία με τη μνήμη.
Η πραγματική απόδοση του Xeon Phi στις λειτουργίες κινητής υποδιαστολής εξαρτάται σε μεγάλο βαθμό από τη φόρτωση της συσκευής SIMD, η οποία επηρεάζεται αρνητικά από το κόστος εργασίας με τη μνήμη. Για να διασφαλιστεί η αποτελεσματικότητα, είναι απαραίτητο: να χρησιμοποιείτε όλα τα νήματα του πυρήνα. επιδιώκουν τον μέγιστο χωροχρονικό εντοπισμό των δεδομένων στον πυρήνα. να παρέχει δεκάδες φορές το ποσοστό των υπολογιστικών πράξεων σε σχέση με τις λειτουργίες μνήμης.
Η χρήση μεγάλου αριθμού πυρήνων με περιορισμένο εύρος ζώνης στο δίκτυο και τις διεπαφές μνήμης απαιτεί επειγόντως τη χρήση νέων τεχνολογιών για τη βελτιστοποίησή τους. Επιπλέον, είναι απαραίτητο να βελτιωθούν τα εφαρμοσμένα υπολογιστικά μοντέλα όσον αφορά τη μείωση των προσβάσεων στη μνήμη (μοντέλα νήματος), την αύξηση του ασυγχρονισμού των υπολογισμών και της ανοχής σε καθυστερήσεις (μοντέλα πολλαπλών νημάτων και μοντέλα με διαχωρισμό υπολογιστικών διεργασιών και διεργασιών πρόσβασης δεδομένων).

Οι μετρήσεις έχουν δείξει ότι επωφελούνται από πραγματικές εφαρμογέςΗ υψηλή απόδοση του Xeon Phi δεν είναι εύκολη, κάτι που λήφθηκε υπόψη από τους προγραμματιστές TH-2 που ξεκίνησαν το έργο για την υλοποίηση ενός νέου περιβάλλοντος προγραμματισμού OpenMCC για να αντικαταστήσει τα OpenMP, CUDA, OpenACC και OpenCL. Το περιβάλλον OpenMCC λαμβάνει υπόψη την ενοποίηση του συστήματος εντολών των πυρήνων Xeon Phi και των υπερβαθμωτών μικροεπεξεργαστών που χρησιμοποιούνται, γεγονός που επιτρέπει έναν πιο ελεύθερο καταμερισμό της εργασίας μεταξύ διαφορετικών πυρήνων, τον έλεγχο της ισορροπίας φορτίου των πυρήνων στη διαδικασία υπολογισμού και την αύξηση του εντοπισμός δεδομένων και υπολογισμών και βελτιστοποίηση ανταλλαγών. Αυτή δεν είναι η πρώτη εμπειρία για τους προγραμματιστές να δημιουργούν αυτοματοποιημένα εργαλεία για παράλληλο προγραμματισμό μεγάλων υβριδικών συστημάτων - για το Tianhe-1A, δημιουργήθηκε η υποδομή λογισμικού TH-HPI, η οποία, εκτός από τη διασφάλιση της αποτελεσματικότητας, έκανε την υβριδικότητα του συστήματος διαφανή σε ο χρήστης.

Θα πρέπει να υπενθυμίσουμε ότι το λειτουργικό σύστημα Kylin Linux, το οποίο είναι η βάση για το TH-2, είναι βελτιστοποιημένο για λειτουργία σε συστήματα πολλαπλών πυρήνων και πολλαπλών νημάτων, υποστηρίζει εργαλεία εικονικοποίησης που σας επιτρέπουν να δημιουργείτε ετερογενή περιβάλλοντα cloud με αυξημένη ασφάλεια και να περιλαμβάνει πόροι υβριδικών κόμβων υπολογιστών, πόροι κόμβων υπηρεσίας σε μικροεπεξεργαστές μαζικών πολλαπλών νημάτων FT-1500.

«Απόγονοι» του Xeon Phi για συστήματα exascale

Η δημιουργία πολυπύρηνων μικροεπεξεργαστών πολλαπλών νημάτων τύπου Xeon Phi αποτελεί αναπόφευκτο στοιχείο της σύγχρονης βιομηχανίας HPC και οι ελλείψεις τους (αδύναμες εσωτερικές και εξωτερικές διεπαφές, χαμηλό σπείρωμα για την εξασφάλιση ανοχής) σίγουρα θα εξαλειφθούν στη νέα γενιά μικροεπεξεργαστές, αλλά του ίδιου τύπου. Ως παραδείγματα τέτοιων μελλοντικών μικροεπεξεργαστών, μπορούμε να αναφέρουμε δύο πολλά υποσχόμενους μικροεπεξεργαστές που δημιουργούνται με απόδοση άνω των 10 TFLOPS: ο μικροεπεξεργαστής έργου Echelon (NVIDIA και Cray) και ο μικροεπεξεργαστής έργου Corona (HP).

Ο υβριδικός μικροεπεξεργαστής του έργου Echelon (εστιασμένος στην τεχνολογία 10 nm) περιέχει 8 πυρήνες υπερκλιμάκωσης και 256 μπλοκ νημάτων, 8 πυρήνες πολλαπλών νημάτων σε ένα μπλοκ με υποστήριξη για 64 νήματα το καθένα χρησιμοποιώντας τέσσερα ενεργά κανάλια νημάτων για την έκδοση εντολών. Τα νήματα πυρήνα μπορούν να εκτελούνται τόσο ασύγχρονα όσο και συγχρονισμένα. Ο συνολικός αριθμός πυρήνων στον μικροεπεξεργαστή είναι πάνω από 1032 και ο αριθμός των νημάτων είναι πάνω από 65.536. Η μέγιστη απόδοση του μικροεπεξεργαστή είναι 16 TFLOPS, το εύρος ζώνης της διεπαφής μνήμης με 16 ελεγκτές είναι 2 TB/s και το εύρος ζώνης 16 διεπαφές με δίκτυο επικοινωνίας μεταξύ κόμβων είναι 0, 4 TB/s. Στον κόμβο υπολογιστών, ο μικροεπεξεργαστής λειτουργεί με περισσότερα από 512 GB μνήμης. Η δημιουργία ενός συστήματος exascale που θα βασίζεται σε έναν τέτοιο μικροεπεξεργαστή έχει προγραμματιστεί για το 2018.

Ο μικροεπεξεργαστής του έργου HP Corona (που επικεντρώνεται στην τεχνολογία 16 nm) περιέχει 256 ομοιογενείς πυρήνες (4 νήματα σε κάθε πυρήνα). Με κορυφαία απόδοση άνω των 10 TFLOPS, είναι κατασκευασμένο για εφαρμογές εντατικής μνήμης, διακοπτόμενες εφαρμογές. Αυτός ο μικροεπεξεργαστής είναι ενδιαφέρον για αυτόν τις τελευταίες τεχνολογίες: οπτικό (νανοφωτονικό) δίκτυο σε τσιπ και διεπαφές σε ένα σύνολο κυματοδηγών πυριτίου, σε καθένα από τα οποία υπάρχει ταυτόχρονη μετάδοση πληροφοριών σε 64 μήκη κύματος. Συγκρότημα τρισδιάστατης μήτρας με συνδέσεις που επιτρέπουν την ενσωμάτωση στο επίπεδο της μήτρας και όχι στην περίμετρο. οπτικές συνδέσεις μεταξύ τρισδιάστατων συγκροτημάτων κρυστάλλων με χρήση συστοιχιών μικροφακών και μικροσκοπικών λέιζερ. Το δίκτυο 64 καναλιών εντός τσιπ συνδέει 64 συμπλέγματα σε έναν δακτύλιο, καθένα από τα οποία έχει 4 πυρήνες επεξεργαστή. Το σύμπλεγμα έχει το δικό του κανάλι 4 κυματοδηγών, καθένας από τους οποίους μεταδίδει ταυτόχρονα πληροφορίες σε 64 μήκη κύματος. Το σύμπλεγμα κατόχων μπορεί να διαβάσει δεδομένα από το κανάλι, ενώ άλλα συμπλέγματα μπορούν μόνο να γράψουν σε αυτό. Για έναν κύκλο (5 GHz), 64 byte (γραμμή κρυφής μνήμης) μεταδίδονται μόνο μέσω ενός καναλιού. Η συνολική απόδοση του δικτύου on-chip είναι 20 TB / s. Κατανάλωση δικτύου - 39 W. Η διεπαφή μνήμης στο HP Corona υλοποιείται μέσω 64 ελεγκτών μνήμης, ο καθένας 160 GB / s, η κατανάλωση ισχύος μνήμης είναι 6,4 W, η διεπαφή κάθε ελεγκτή είναι δύο απλοί κυματοδηγοί 64 μηκών κύματος ο καθένας, που αφήνει συνολικά 10 TB/s . Η δημιουργία ενός συστήματος exascale που θα βασίζεται σε έναν τέτοιο μικροεπεξεργαστή αναμένεται μετά το 2017.

Οι προετοιμασίες για την ανάπτυξη μιας τέτοιας βάσης εξωτικών στοιχείων βρίσκονται ήδη σε εξέλιξη σήμερα - αυτή είναι ακριβώς μια από τις κρυφές έννοιες της χρήσης μικροεπεξεργαστών τύπου XeonPhi στο TH-2.

Πτυχία Συγχρονισμού και Θέματα Λογισμικού Συστήματος

Ο βαθμός παραλληλισμού των σύγχρονων υπερυπολογιστών, που καθορίζεται από τον αριθμό των πυρήνων του επεξεργαστή, υπολογίζεται στο επίπεδο των 10 6 . Για παράδειγμα, το Cray Titan, το οποίο βρίσκεται στη δεύτερη θέση στην τρέχουσα κατάταξη Top500 (καλοκαίρι 2013), περιέχει 560.840 πυρήνες και το TH-2 έχει ήδη 3.120.000 πυρήνες. Στους υπολογιστές exascale, η απόδοση θα πρέπει να αυξάνεται κατά τρεις τάξεις μεγέθους, κάτι που είναι δυνατό λόγω της αύξησης του παραλληλισμού, επομένως ο αριθμός των πυρήνων πρέπει να είναι τουλάχιστον 10 9 . Η αξιοπιστία μιας τέτοιας εκτίμησης υποστηρίζεται από το γεγονός ότι για να εξασφαλιστεί η ανοχή στις καθυστερήσεις πρόσβασης στη μνήμη, θα απαιτηθεί η χρήση μιας αρχιτεκτονικής πολλαπλών νημάτων των πυρήνων, η οποία θα αυξήσει τον βαθμό παραλληλισμού κατά άλλες 1-2 τάξεις μεγέθους .

Παραλληλισμός αυτού του βαθμού παρέχεται από μικροεπεξεργαστές όπως ο Xeon Phi, αλλά η γενιά παράλληλες διαδικασίεςστο επίπεδο 10 9 και η υποστήριξη της εργασίας τους στη διαδικασία εκτέλεσης του προγράμματος είναι το πιο σοβαρό πρόβλημα για τους προγραμματιστές λογισμικού συστήματος. Οι μεγαλύτερες δυσκολίες περιμένουν τους δημιουργούς συστημάτων υποστήριξης εκτέλεσης προγραμμάτων (συστήματα χρόνου εκτέλεσης), τα οποία ελέγχουν τη διαδικασία εκτέλεσης όχι στο επίπεδο του λειτουργικού συστήματος, αλλά στο επίπεδο του προγράμματος χρήστη, που εφαρμόζουν νέα μοντέλα υπολογιστών, όπως η ροή και η πολυνηματική ροή. Στην πραγματικότητα, σήμερα η συντριπτική πλειοψηφία των ερευνητικά έργαθέματα exascale σύμφωνα με τις γραμμές DARPA και DoE, τέτοιες εργασίες εκτελούνται επίσης στο TH-2.

Ο βαθμός παραλληλισμού σε συστήματα εξάφλοπς και περισσότερων επιπέδων, στα οποία θα χρησιμοποιηθεί η δημιουργημένη βάση στοιχείων-σχεδιασμού της μετά-Moore εποχής, αναμένεται να είναι ακόμη υψηλότερος. Για το λόγο αυτό, στο πρόγραμμα DARPA STARnet, ένα από τα έξι πρωτοποριακά ερευνητικά κέντρα επικεντρώνεται στη δημιουργία μοντέλων και λογισμικού συστήματος για παραλληλισμό ήδη στο επίπεδο του 10 12 .

Η υβριδική φύση του υπερυπολογιστή TH-2, που παρουσιάζεται σε πρωτοφανή κλίμακα για την παγκόσμια πρακτική, μαζί με την ιεραρχία και την ετερογένεια, επιτρέπει την επίλυση όχι μόνο περίπλοκων επιστημονικών και τεχνικών προβλημάτων - αυτός ο υπερυπολογιστής πρέπει να θεωρείται ως μια μοναδική πειραματική εγκατάσταση για τον προσδιορισμό των απαιτούμενων χαρακτηριστικών της μελλοντικής βάσης στοιχείων-σχεδιασμού των συστημάτων exascale. Δεν είναι λιγότερο σημαντικό το γεγονός ότι αυτός ο υπερυπολογιστής καθιστά δυνατή τη διεξαγωγή έρευνας μεγάλης κλίμακας για τη δημιουργία λογισμικού συστήματος εστιασμένου στη χρήση νέων υπολογιστικών μοντέλων με ένα επίπεδο παραλληλισμού ανέφικτο μέχρι στιγμής.

Βιβλιογραφία

Dongarra J. Επίσκεψη στο Εθνικό Πανεπιστήμιο Αμυντικής Τεχνολογίας Changsha, Κίνα. 3 Ιουνίου 2013
Οι Yang Xue-Jun et al. Ο υπερυπολογιστής TianHe-1A: Το υλικό και το λογισμικό του. Journal of Computer Science and Tachnology, 26(3): 344-351, Μάιος 2011.
Saule Ε. et al. Αξιολόγηση απόδοσης πυρήνων πολλαπλασιασμού μήτρας Spsrse σε Intel Xeon Phi. 5 Φεβρουαρίου 2013, 19 σελ.

Ντμίτρι Αντριούσιν ([email προστατευμένο]), Βίκτορ Γκορμπούνοφ ([email προστατευμένο]), Leonid Eisymont ([email προστατευμένο]) - υπάλληλοι της Ομοσπονδιακής Κρατικής Ενιαίας Επιχείρησης "NII" Kvant "" (Μόσχα). Το άρθρο προετοιμάστηκε με βάση τα υλικά της έκθεσης που παρουσιάστηκαν από τους συγγραφείς στο IV Φόρουμ Υπερυπολογιστών της Μόσχας (MSCF-2013, επιχορήγηση RFBR 13-07-06046).

Δημοσίευσε μια βαθμολογία με τους πιο ισχυρούς υπολογιστές που υπάρχουν στον πλανήτη μας. Η λίστα περιλαμβάνει συνολικά πεντακόσιες συσκευές. Σύμφωνα με τους ερευνητές, κατά τη σύνταξή του, λήφθηκε ως βάση ένας δείκτης όπως η ταχύτητα της λύσης. Με βάση τα δημοσιευμένα δεδομένα, από σήμερα, ο πιο ισχυρός υπολογιστής στον κόσμο είναι ο Tianhe-2, κατασκευασμένος από Κινέζους Επιστήμονες.

Απόδοση υπολογιστή

Με βάση τα αποτελέσματα αναφοράς Linpack, αυτό το μηχάνημα είναι σε θέση να εκτελεί 33,86 τρισεκατομμύρια λειτουργίες σε κάθε δευτερόλεπτο του χρόνου. Σύμφωνα με αυτόν τον δείκτη, το 2013 ξεπέρασε τον προκάτοχό του, το Tianhe-1, το οποίο παρουσιάστηκε για πρώτη φορά πριν από περίπου τρία χρόνια, κατά σχεδόν δεκαπέντε φορές. Σύμφωνα με Κινέζους μηχανικούς, μια τόσο εντυπωσιακή απόδοση της ανάπτυξής τους επιτεύχθηκε μέσω της χρήσης του λεγόμενου μοντέλου ακραίου παραλληλισμού. Βασίζεται στη χρήση ενός αριθμού συνεπεξεργαστών Phi, οι οποίοι θα συζητηθούν αργότερα. Θα πρέπει να σημειωθεί ότι παρόμοια προσέγγιση χρησιμοποιείται από πολλούς άλλους προγραμματιστές, των οποίων οι συσκευές περιλαμβάνονται επίσης στην αξιολόγηση.

Εσωτερική «γέμιση» της συσκευής

Ο πιο ισχυρός υπολογιστής στον κόσμο έχει 3,12 εκατομμύρια πυρήνες. Υπάρχουν 32.000 που λειτουργούν μέσα στη συσκευή. Επεξεργαστές Intel Xeon και 48.000 συνεπεξεργαστές Xeon-Phi. Λόγω αυτών, σχηματίστηκε ο παραπάνω αριθμός μεμονωμένων πυρήνων, συνδυασμένοι μεταξύ τους λόγω της τεχνολογίας TN Express-2 που αναπτύχθηκε ειδικά για το σκοπό αυτό. Η ποσότητα της μνήμης που λειτουργεί από το Tianhe-2 είναι ένα petabyte. Σχετικά με λειτουργικό σύστημα, τα περισσότερα ισχυρός υπολογιστήςστον κόσμο τρέχει σε Kylin Linux. Η ηλεκτρική κατανάλωση της συσκευής είναι 17,8 μεγαβάτ. Τα περισσότερα από τα ιδιόκτητα χαρακτηριστικά αυτού του υπολογιστή (συμπεριλαμβανομένων των επεξεργαστών, του λειτουργικού συστήματος, των διασυνδέσεων, του λογισμικού και των εφαρμογών) αναπτύσσονται και υλοποιούνται στην Κίνα. Η μόνη εξαίρεση είναι η υπολογιστική ισχύς της μηχανής, η οποία βασίζεται σε τσιπ από από την Intel.

Τόπος ανάπτυξης και πεδίο εφαρμογής

Σύμφωνα με τους προγραμματιστές, αρχικά ο πιο ισχυρός υπολογιστής στον κόσμο επρόκειτο να κυκλοφορήσει το 2015, αλλά η επιθυμία τους να επιτύχουν θετικό αποτέλεσμαοδήγησε στη συντομογραφία αυτού του όρου. Επί του παρόντος, η τοποθεσία της συσκευής είναι το Πανεπιστήμιο Αμυντικής Τεχνολογίας της Κίνας. Μέχρι στιγμής, διεξάγονται όλα τα είδη δοκιμών σε αυτό σχετικά με την πρόβλεψη της κλιματικής αλλαγής, διάφορους τεράστιους υπολογισμούς, καθώς και τη λειτουργία της συσκευής σε ακραίες συνθήκες.

Άλλοι ισχυροί υπολογιστές

Αν κοιτάξετε τη συγκεντρωμένη βαθμολογία, μπορείτε να δείτε ότι όχι μόνο ο πιο ισχυρός υπολογιστής στον κόσμο είναι μια κινεζική ανάπτυξη. Εκτός από αυτόν, η λίστα περιλαμβάνει άλλα 64 αυτοκίνητα που κατασκευάστηκαν και λειτουργούν στην επικράτεια αυτής της χώρας. Οι περισσότερες από τις πιο ισχυρές συσκευές (συγκεκριμένα 253) είναι εγκατεστημένες Δοσμένος χρόνοςστις ΗΠΑ. Ενδιαφέρον γεγονός, που αφορά τους εκπροσώπους της λίστας, είναι ότι τσιπ της Intel χρησιμοποιούνται εδώ σε οκτώ περιπτώσεις στις δέκα.

Για τρία χρόνια -από τον Ιούνιο του 2013- την πρώτη γραμμή στους Top500 υπερυπολογιστές του κόσμου κατείχε ο κινεζικός Tianhe-2. Η απόδοσή του είναι πάνω από 33,8 Pflops, η μέγιστη απόδοση είναι 54,9 Pflops. Ταυτόχρονα, το μηχάνημα λειτουργεί με επεξεργαστές Intel, γεγονός που έδωσε λόγο να πούμε ότι ο υπερυπολογιστής, στην πραγματικότητα, δεν είναι εξ ολοκλήρου κινέζικος. Ωστόσο, τώρα η κατάσταση έχει αλλάξει ριζικά.

ΣΤΟ τελευταία έκδοσηΤο Top500 που δημοσιεύτηκε στις 20 Ιουνίου 2016, ο νέος κινεζικός υπερυπολογιστής - Sunway TaihuLight κατέλαβε την πρώτη θέση. Στη δοκιμή Linpack, ο υπερυπολογιστής έδειξε αποτέλεσμα 93 Pflops, δηλαδή ξεπέρασε το Tianhe-2 σχεδόν τρεις φορές. Η μέγιστη απόδοση του μηχανήματος είναι 125 Pflops.

Το Sunway TaihuLight είναι μέσα Εθνικό Κέντρουπερυπολογιστές στο Wuxi, δύο ώρες οδικώς από τη Σαγκάη. Ο υπερυπολογιστής έχει 10 εκατομμύρια πυρήνες, οι οποίοι αποτελούν 40.000 κόμβους. Ταυτόχρονα, το Sunway TaihuLight τροφοδοτείται πλήρως από επεξεργαστές που έχουν σχεδιαστεί και κατασκευαστεί στην Κίνα - ShenWei SW26010.

Το εμπάργκο των ΗΠΑ, το οποίο περιόριζε την προμήθεια επεξεργαστών Intel στην Κίνα, θα μπορούσε να συμβάλει στη δημιουργία των δικών της τσιπ.

«Δεν νομίζω ότι το εμπάργκο βοήθησε», διαφωνεί ο Aleksey Lukashin, Αναπληρωτής Καθηγητής του Τμήματος Τηλεματικής (στο Κεντρικό Ινστιτούτο Ερευνών του RTK) του Πέτρου του Μεγάλου Πολυτεχνείου της Αγίας Πετρούπολης, επικεφαλής του υπερυπολογιστή «SKC». Κέντρο "Πολυτεχνείο". Υπάρχει πριν από περίπου ένα χρόνο. Προφανώς, ο επεξεργαστής ShenWei αναπτύχθηκε πολύ περισσότερο, αλλά η εισαγωγή εξωτερικών κυρώσεων σε κάποιο βαθμό θα μπορούσε να επιταχύνει τη διαδικασία ανάπτυξης. Έμμεσα, η παρουσία δυτικών επεξεργαστών στην Κίνα θα μπορούσε επίσης να βοηθήσει , που επιταχύνει την αντίστροφη μηχανική και σας επιτρέπει επίσης να δημιουργήσετε τη δική σας παραγωγή. Εκτός από τη δημιουργία του δικού σας επεξεργαστή, σημαντικός παράγοντας είναι επίσης η ανάπτυξη της δικής σας διασύνδεσης, ενός δικτύου ανταλλαγής δεδομένων υψηλής ταχύτητας μεταξύ υπολογιστών, το οποίο επίσης πιθανότατα επηρέασε την απόδοση του υπερυπολογιστή».

Προσθέτει ότι στη Ρωσία, προφανώς, δεν υπάρχουν επεξεργαστές εντελώς εγχώριας παραγωγής που θα μπορούσαν να χρησιμοποιηθούν σε υπερυπολογιστές.

"Πιστεύω ότι σήμερα η απάντηση είναι πιθανότερο όχι παρά ναι. Ο Elbrus δεν έχει φτάσει ακόμη τους απαιτούμενους δείκτες, αλλά όσον αφορά τη διασύνδεση, μπορεί κανείς να αναφέρει ως παράδειγμα το δίκτυο επικοινωνίας Angara που αναπτύσσεται στην JSC NITSEVT", λέει ο Alexei Lukashin. Εργαζόμαστε με επιτυχία στον τομέα της υλοποίησης παγκόσμιων έργων χρησιμοποιώντας τη δύναμη των υπερυπολογιστών, κάτι που διευκολύνεται τόσο από την ήδη κερδισμένη αυθεντία στη διεθνή αγορά όσο και από την ενεργό συμμετοχή στην ακαδημαϊκή διαδικασία ξένων συναδέλφων και φοιτητών διεθνών μεταπτυχιακών προγραμμάτων, καθώς και ως Θερινό Πολυτεχνείο».

Αυτή τη στιγμή, οι κινεζικοί υπερυπολογιστές καταλαμβάνουν την πρώτη και τη δεύτερη θέση στο Top500. Ο αμερικανικός Τιτάνας, που εγκαταστάθηκε στο Εθνικό Εργαστήριο Oak Ridge, έχει περάσει στην τρίτη θέση. Η πρώτη δεκάδα περιλαμβάνει επίσης υπερυπολογιστές από την Ιαπωνία, την Ελβετία, τη Γερμανία και τη Σαουδική Αραβία.

Ο υπερυπολογιστής Lomonosov-2 του Κρατικού Πανεπιστημίου της Μόσχας στην τρέχουσα έκδοση της βαθμολογίας καταλαμβάνει την 41η θέση, η οποία είναι 10 γραμμές χαμηλότερη από πριν. Είναι επίσης ο μόνος ρωσικός υπερυπολογιστής στους 100 καλύτερους.

Ο υπερυπολογιστής συμπλέγματος "Polytechnic RSC Tornado", ο οποίος βρίσκεται στο Πολυτεχνείο του Μεγάλου Πέτρου της Αγίας Πετρούπολης, κατέλαβε την 158η θέση στη βαθμολογία. Πριν από λίγο καιρό, η Telecomblog επισκέφτηκε το Κέντρο Υπερυπολογιστών του Πολυτεχνείου, η αναφορά μπορεί να είναι

Πρέπει να σημειωθεί ότι το 2001, οι κινεζικοί υπερυπολογιστές δεν ήταν καθόλου στην παγκόσμια κατάταξη. Τώρα, για πρώτη φορά, η Κίνα έχει ξεπεράσει τις Ηνωμένες Πολιτείες όσον αφορά τον αριθμό των αυτοκινήτων στην κορυφή - υπάρχουν 167 από αυτά σε σύγκριση με 165 για τους Αμερικανούς.

Top500 σύμφωνα με τη δοκιμή Linpack. Σε αντίθεση με τις προηγούμενες 6 εκδόσεις της βαθμολογίας, ο ηγέτης της λίστας άλλαξε, ο κινεζικός υπερυπολογιστής Sunway TaihuLight (神威太湖之光) κατέλαβε την πρώτη θέση με αποτέλεσμα 93 petaflops στη δοκιμή Linpack (η θεωρητική απόδοση είναι 125,4 petaflops) . Η απόδοσή του είναι περίπου 3 φορές υψηλότερη από αυτή του προηγούμενου αρχηγού της λίστας, του κινεζικού Tianhe-2.

Ο νέος υπερυπολογιστής αναπτύχθηκε από το Εθνικό Ερευνητικό Κέντρο Παράλληλης Μηχανικής & Τεχνολογίας Υπολογιστών της Κίνας. Το σύστημα βρίσκεται στο Εθνικό Κέντρο Υπερυπολογιστών στο Wuxi, στην επαρχία Jiangsu στην ανατολική Κίνα.

Ο υπερυπολογιστής βασίζεται σε νέους κινέζικους επεξεργαστές της οικογένειας ShenWei - SW26010 με την αρχική αρχιτεκτονική RISC 64 bit, πιθανώςκατασκευάζεται με τεχνολογία 28 nm. Κάθε επεξεργαστής είναι εξοπλισμένος με 260 πυρήνες, τρέχει στα 1,45 GHz και έχει απόδοση 3,06 teraflops.

Ο επεξεργαστής σχεδιάστηκε στο κέντρο σχεδιασμού IC High Performance της Σαγκάης. Ο επεξεργαστής αποτελείται από 4 παρόμοια μπλοκ πυρήνων (ομάδες πυρήνων), που συνδέονται με ένα ενσωματωμένο δίκτυο σε ένα τσιπ. Κάθε μπλοκ έχει έναν πυρήνα ελέγχου (Management Processing Element, MPE), έναν ελεγκτή μνήμης DDR3 (128 bit) και 64 πυρήνες υπολογιστών (Computing Processing Elements, CPE) σε μια συστοιχία 8x8. Και οι δύο τύποι πυρήνων έχουν μια ασυνήθιστη μικροαρχιτεκτονική. Οι πυρήνες ελέγχου MPE υποστηρίζουν την εκτέλεση τόσο του λειτουργικού συστήματος όσο και του κώδικα χρήστη, χρησιμοποιούν διανυσματικές λειτουργίες 264 bit, περιέχουν 32 KB προσωρινής μνήμης L1 για οδηγίες και δεδομένα και 256 KB προσωρινής μνήμης L2. Οι υπολογιστικοί πυρήνες CPE μπορούν να εκτελέσουν κώδικα χρήστη μόνο με διανύσματα 264-bit, χρησιμοποιούν 16 KB προσωρινής μνήμης εντολών και 64 KB προσωρινής μνήμης (Μνήμη Scratch Pad). Κάθε ένα από τα 4 μπλοκ πυρήνων έχει πρόσβαση σε 8 GB μνήμη τυχαίας προσπέλασης DDR3-2133, επομένως ο κόμβος έχει 32 GB μνήμης RAM με συνολικό εύρος ζώνης έως 136,5 GB/s.

Η απόδοση των υπολογισμών SIMD σε πυρήνες MPE είναι 16 αιωρούμενες λειτουργίες διπλής ακρίβειας (64 bit) ανά ρολόι, σε πυρήνες CPE - 8 λειτουργίες ανά ρολόι. Η συνολική απόδοση των πυρήνων MPE στα 1,45 GHz μπορεί να φτάσει τα 23,2 gigaflops, οι πυρήνες CPE - 11,6 gigaflops.

Συνολικά, ο υπερυπολογιστής χρησιμοποιεί περισσότερους από 10,6 εκατομμύρια πυρήνες σε 40.960 κόμβους ενός επεξεργαστή σε 40 rack υπολογιστών. Κάθε ράφι έχει 4 υπερκόμβους, ο υπερκόμβος αποτελείται από 32 μονάδες με 8 κόμβους το καθένα. Οι ενότητες έχουν υδρόψυξη. Υπάρχουν λίγες λεπτομέρειες σχετικά με το κύριο δίκτυο του υπερυπολογιστή, είναι γνωστό ότι κάθε τσιπ SW26010 έχει PCI Express 3 (16x) σύνδεση στο δίκτυο τριών επιπέδων "Sunway Network". Διάμετρος δικτύου - 7, "εύρος ζώνης διχοτόμησης" - 70 TB / s. Η Dongarra είπε ότι χρησιμοποιεί τσιπ και διακόπτες προσαρμογέα καναλιού κεντρικού υπολογιστή Mellanox, με εύρη ζώνης καναλιών περίπου 12 Gb/s (100 Gb/s) και καθυστερήσεις της τάξης του 1 μs.

Η υπολογιστική απόδοση στη δοκιμή HPL (Linpack) ήταν 74% της θεωρητικής απόδοσης. Ταυτόχρονα, σε μια πιο σύνθετη δοκιμή HPCG, το σύστημα έδειξε μόνο το 0,3% του επιπέδου αιχμής (ορισμένα συστήματα φτάνουν το 1-3%), γεγονός που υποδηλώνει σχετικά αργή μνήμη και ανεπαρκές εύρος ζώνης δικτύου. Για το SW26010, ο λόγος των κορυφαίων flops προς το εύρος ζώνης μνήμης είναι 22,4 flops/byte (για σύγκριση, το Intel Knights Landing έχει 7,2 flops/byte). Ο Dongarra σημείωσε επίσης ότι το σύστημα έχει σχετικά μικρή μνήμη RAM, μόνο 1,3 PB (το Tianhe-2 έχει 1,4 PB, ο αμερικανικός Titan, που ήδη καταλαμβάνει την 3η θέση στο Top500, έχει 0,71 PB).

Η μέση κατανάλωση ενέργειας του υπερυπολογιστή κατά την εκτέλεση της δοκιμής HPL ήταν 15,3 MW (η οποία είναι ελαφρώς μικρότερη από 17 MW για το Tianhe-2), η μέγιστη ήταν λίγο κάτω από τα 18 MW. Ο Dongarra υπολόγισε την ενεργειακή απόδοση σε 6 gigaflops ανά watt (λαμβάνοντας υπόψη την CPU, τη μνήμη και την κατανάλωση δικτύου). Νέος υπερυπολογιστής

Ο κινεζικός υπερυπολογιστής είναι κατασκευασμένος με βάση μικροκυκλώματα δικής του παραγωγής, δεν υπάρχουν εξαρτήματα που παράγονται από ξένες εταιρείες σε αυτόν. Ακόμη πιο ευχάριστο για τους εκπροσώπους της Ουράνιας Αυτοκρατορίας, επειδή το πνευματικό τέκνο τους έλαβε τον τίτλο του ταχύτερου υπολογιστή στον κόσμο. Μάλιστα, το γεγονός αυτό επιβεβαιώνει την επιτυχία στον τομέα των υψηλών τεχνολογιών, που έχει πετύχει αυτή η χώρα τα τελευταία χρόνια. Μπορούμε να πούμε ότι με βάση την τεχνολογία παραγωγής ημιαγωγών που έλαβαν οι Κινέζοι από τις Ηνωμένες Πολιτείες, ξεκίνησε η παραγωγή των δικών τους τσιπ, τα οποία έχουν υψηλό βαθμόανταγωνιστικότητα και ποιότητα.

Με τον δικό του τρόπο υπολογιστική ισχύςο νέος πρωταθλητής Sunway TaihuLight ξεπερνά τον προκάτοχό του (παρεμπιπτόντως, επίσης «κινέζικο») Tianhe-2 κατά περισσότερες από τρεις φορές. Είναι ικανό να εκτελέσει 93 τετράδισεκατομμύρια υπολογιστικές λειτουργίες ανά δευτερόλεπτο (αλλιώς γνωστά ως petaflops). Το πιο παραγωγικό και ισχυρό σύστημα που διαθέτουν σήμερα οι Ηνωμένες Πολιτείες είναι περίπου πέντε φορές πιο αδύναμο από το Sunway TaihuLight. Τώρα έχει περάσει στην τρίτη θέση στον κόσμο.

Όσο για το TaihuLight, έχει 41.000 επεξεργαστές, ο καθένας με 260 πυρήνες. Συνολικά, 10,65 εκατομμύρια πυρήνες λειτουργούν σε ένα σύστημα. Για σύγκριση: το αμερικανικό κορυφαίο μηχάνημα έχει 560.000 πυρήνες. Αν μιλάμε για την ποσότητα της μνήμης, τότε οι αριθμοί δεν είναι τόσο εντυπωσιακοί - για τα πάντα σχετικά με τα πάντα, αυτός ο υπερυπολογιστής έχει μόνο 1,3 petabyte. Και πάλι, για σύγκριση, ο πολύ λιγότερο ισχυρός υπερυπολογιστής K, ο οποίος έχει απόδοση 10 petaflops, έχει 1,4 petabytes μνήμης RAM. Αλλά αυτό το γεγονός δεν μπορεί να αποδοθεί σε ελλείψεις. Τελικά φαίνεται πως νέο σύστημαπολύ οικονομικό από άποψη κατανάλωσης ενέργειας. Απαιτεί μόνο 15,3 μεγαβάτ ενέργειας. Για να τροφοδοτήσει τον πρώην πρωταθλητή, τον υπερυπολογιστή Tianhe-2 με απόδοση 33 petaflops, χρειάζονται 17,8 μεγαβάτ.

Ένας σημαντικός παράγοντας είναι ότι το TaihuLight βασίζεται σε ημιαγωγούς αποκλειστικά κινεζικής κατασκευής:

"Έχει διαφορετική αρχιτεκτονική. Οι Κινέζοι το κατασκεύασαν μόνοι τους", εξηγεί στον ανταποκριτή του Bloomberg, Τζακ, ο Τζακ Ντονγκάρα, καθηγητής στο Πανεπιστήμιο του Τενεσί και δημιουργός ενός συστήματος που χρησιμοποιείται για την απόδοση βαθμολογίας σε όλους τους υπάρχοντες υπερυπολογιστές στον κόσμο. Ντονγκάρα.

Οι ΗΠΑ απαγορεύουν τις εξαγωγές επεξεργαστών υψηλής απόδοσης στην Κίνα

Ο προηγούμενος ταχύτερος υπολογιστής, ο Tianhe-2, που ανήκει επίσης στην Κίνα, βασίστηκε σε επεξεργαστές Intel. Πέρυσι υπήρχαν σχέδια για αναβάθμιση του Tinahe-2, οι Κινέζοι ήθελαν να αυξήσουν τις επιδόσεις του. Ωστόσο, τον Απρίλιο του 2015, η κυβέρνηση των ΗΠΑ αποφάσισε να απαγορεύσει την εξαγωγή όλων των τύπων ισχυρούς επεξεργαστές. Το Υπουργείο Εμπορίου των ΗΠΑ δήλωσε ότι η εξαγωγή τέτοιων αγαθών και τεχνολογιών «ενεργεί εις βάρος» των συμφερόντων εθνικής ασφάλειας των ΗΠΑ. Επιπλέον, οι Αμερικανοί άρχισαν να υποψιάζονται ότι ένας από τους υπερυπολογιστές της προηγούμενης γενιάς - ο Tianhe-1A - "χρησιμοποιήθηκε για τη δημιουργία της πυρηνικής ενέργειας της Κίνας".

Ίσως υπάρχει κάποια αλήθεια σε αυτό, γιατί πιστεύεται ότι οι υπερυπολογιστές, τόσο στις Ηνωμένες Πολιτείες όσο και στην Κίνα, αποτελούν αναπόσπαστο μέρος του συστήματος εθνικής ασφάλειας και μέσο διεξαγωγής προηγμένης επιστημονικής έρευνας. Οι στόχοι τους μπορεί να είναι ειρηνικοί, όπως η πρόβλεψη της κλιματικής αλλαγής ή ο σχεδιασμός νέων βιομηχανικών προϊόντων κ.λπ. Είναι επίσης πιθανό οι υπερυπολογιστές να βοηθούν τους επιστήμονες να αναπτύξουν τις πιο πρόσφατες στρατιωτικές τεχνολογίες, συμπεριλαμβανομένης της δημιουργίας πυρηνικών όπλων ή της μελέτης προβλημάτων στον κυβερνοχώρο. Οι δημιουργοί του TaihuLight λένε ότι θα χρησιμοποιηθεί στον τομέα της βιομηχανικής παραγωγής, στη μελέτη βιοϊατρικών προβλημάτων και στη μοντελοποίηση της γης.

Πρέπει να σημειωθεί ότι οι επενδύσεις στην ανάπτυξη και δημιουργία επεξεργαστών ημιαγωγών υψηλής απόδοσης, τις οποίες η Κίνα πραγματοποιεί εδώ και αρκετά τα τελευταία χρόνιαέδωσε εξαιρετικά αποτελέσματα. Το 2001, στην παγκόσμια κατάταξη για υπερυπολογιστές, αυτή η χώρα ήταν στο Top 500. Τώρα έχει 167 θέσεις στη λίστα αξιολόγησης και 165 για τις ΗΠΑ. Η ανάπτυξη και η δημιουργία του TaihuLight πραγματοποιήθηκε σύμφωνα με το λεγόμενο «863ο πρόγραμμα». Είναι ένα σχέδιο της κινεζικής κυβέρνησης που στοχεύει να τερματίσει την εξάρτηση της χώρας από την ξένη τεχνολογία.

Μείνετε ενημερωμένοι για όλα τα σημαντικά γεγονότα των United Traders - εγγραφείτε στο δικό μας

Ακριβώς για το συγκρότημα. Προγράμματα. Σίδερο. Διαδίκτυο. Windows