HPC 산업(주로 미국)에서는 오늘날 세 가지 주요 작업 영역을 구분할 수 있습니다. DARPA HPCS 프로그램(2002 -2010) 및 중국과 일본의 유사한 프로그램; 특정 효율성이 50GFLOPS/W인 시스템을 위한 DARPA UHPC 프로그램(2010-2020)의 프레임워크 내에서 새로운 엑사스케일 기술 생성; DARPA STARnet 프로그램(2013–2025/2030)을 구현하여 CMOS 기술의 사용을 최적화하고 엑사스케일 프로젝트에서 먼저 사용하기 위해 포스트 무어 시대의 새로운 요소 설계 기반을 만들기 위해 노력합니다. zetta 및 yotta 수준의 슈퍼컴퓨터를 만듭니다.

첫 번째 방향의 작업 결과는 IBM Power 775 및 Сray XE/XT, Cray XC30과 같은 상용 시스템에서 추적할 수 있습니다. K-컴퓨터; Tianhe-1A 및 Tianhe-2(TH-2). 또한 마지막 두 가지에서 미래 엑사스케일 시스템의 가장 중요한 세 가지 기능인 계층 구조, 하이브리드 및 이질성이 가장 두드러집니다. 계층 - 네트워크용 포트가 많은 라우터를 통해 구성 요소가 "각각" 유형에 따라 밀접하게 연결된 네트워크 계층의 수준 할당 다른 수준계층 구조 및 높은 총 처리량. 하이브리드 - 컴퓨팅 노드에서 코어가 있는 마이크로프로세서 사용 다른 유형. 이질성 - 특정 유형의 문제 해결에 중점을 두고 특수 마이크로프로세서, 네트워크 및 장치를 기반으로 구현되는 슈퍼컴퓨터에서 이종 세그먼트의 사용. TH-2에서는 전체 시스템과 관련하여 이러한 이기종 세그먼트가 자체 생산되는 수천 개의 대량 다중 스레드 마이크로 프로세서 FT-1500을 기반으로 구현됩니다.

TH-2에서 특히 흥미로운 것은 이 시스템의 컴퓨팅 노드에서 대량 다중 코어 Xeon Phi 마이크로프로세서의 사용과 관련된 하이브리드 속성입니다. TH-2는 이제 이 유형의 사용된 마이크로프로세서 수에서 선두를 달리고 있습니다. 1 TFLOPS의 피크 성능을 가진 이 마이크로프로세서와 TH-2에 포함된 이유는 특히 기본이 될 10~20 TFLOPS 성능의 미래 마이크로프로세서에 대한 요구 사항을 명확히 하기 위해 신중한 분석이 필요합니다. 엑사스케일 시스템의 요소.

Tianhe-2 - 하이브리드 속성

TH-2 컴퓨팅 노드는 2개의 12코어 Xeon Ivy Bridge 마이크로프로세서(2.2GHz, 최고 성능 211.2GFLOPS, 각 코어에 2개의 스레드)와 6개의 57코어 Xeon Phi(1.1GHz, 1.003TFLOPS, 기술 22nm)입니다. 컴퓨팅 노드에는 88GB의 RAM이 있으며 그 중 64GB는 Ivy Bridge 메모리이고 24GB는 Xeon Phi 메모리입니다.

인텔 제온 파이 마이크로프로세서

마이크로 제온 프로세서 1세대 Phi에는 61개의 코어(각 코어에 4개의 스레드, 512비트 SIMD 장치), 각각 2개의 32비트 채널이 있는 8개의 메모리 컨트롤러가 있습니다. 이 제품군의 2세대는 14nm 기술을 사용하여 제조됩니다. Xeon Phi에는 SIMD 및 부동 소수점 연산을 위한 두 가지 명령 실행 파이프라인이 있습니다. 정수 연산의 경우. 사이클당 이러한 파이프라인에 두 개의 명령을 발행할 수 있습니다. 각 코어에서 명령어는 순서대로(순서대로) 실행되며, 이는 수퍼스칼라 마이크로프로세서에서 구현되는 것처럼 순서 없이(순서대로) 실행하는 것보다 더 간단합니다. 각 코어에는 각각 32KB의 명령어 캐시와 L1 데이터 캐시가 있으며 데이터 주소 태그 캐시인 512KB L2 캐시(서로 다른 마이크로프로세서 코어의 L2 메모리 일관성을 보장하는 데 사용됨)가 있습니다. L3 캐시가 없습니다.

내부 네트워크마이크로프로세서 - 10개의 단방향 링, 한 방향으로 5개, 다른 방향으로 5개. 5개의 단방향 링 구조는 64바이트 데이터 링, 두 개의 명령 링(읽기 및 쓰기) 및 주소를 포함합니다. 명령 실행을 확인하는 두 개의 메시지 링, 링의 전송 흐름 제어, L2 캐시 일관성 보장. 온칩 네트워크 대역폭은 220GB/s이고 8개 메모리 컨트롤러 인터페이스의 총 대역폭은 352GB/s입니다.

TH-2 컴퓨팅 노드에는 총 32,000개의 Ivy Bridge 마이크로프로세서와 48,000개의 Xeon Phi 마이크로프로세서가 포함되어 있습니다(총 3,120,000개의 코어). 이 중 384,000개는 Ivy Bridge "무거운" 슈퍼스칼라 코어이고 2,736,000개는 "소형 Phi 코어" Xeon입니다. 스레드이지만 강력한 SIMD 장치입니다. 클럭 속도 및 클럭당 연산을 기반으로 한 TH-2의 최고 성능은 54.9PFLOPS이며, 그 중 6.75는 Ivy Bridge이고 48.14는 Xeon Phi 마이크로프로세서입니다.

TH-2에 대한 HPL 테스트(Linpack, Top500 등급)에서 30.65PFLOPS의 실제 성능을 얻었습니다. 슈퍼스칼라 마이크로프로세서의 최대 성능도 6.75PFLOPS에 불과하기 때문에 Xeon Phi의 기여도가 명확하게 나타납니다. 두 가지 실제 문제(토러스의 유체 역학 및 플라즈마 미세 난류)에서 하나의 Xeon Phi의 성능은 두 개의 Ivy Bridge에서 개발된 성능의 각각 70%와 80%에 불과합니다. 즉, Xeon Phi의 실제 성능은 Ivy Bridge의 실제 성능의 140~160%입니다. 이 비율은 Xeon Phi의 사용을 완전히 정당화하지만 최고 성능의 비율과 일치하지 않습니다. 이 비율은 5배 더 큽니다.

Xeon Phi가 TH-2에 사용된 이유, 이 마이크로프로세서의 인기 이유, 장단점은 무엇인가요?

벡터에 의한 희소 행렬의 곱셈에 대한 SpMV 테스트 작업에서 Xeon Phi는 슈퍼스칼라 마이크로프로세서 및 그래픽 보조 프로세서와 비교됩니다. SpMV 테스트는 항상 전문 분야에서 중요했지만 이제는 Linpack 테스트가 부적절하다는 것을 인정한 2013년 7월 초 Jack Dongarra(Top500 저자)의 작업이 발표된 후 특히 인기를 끌 것입니다. 현대 응용 프로그램그리고 그 결과가 실제로 개발자, 사용자 및 정책 입안자에게 오해의 소지가 있습니다. Dongarra는 메모리에 집중적이고 불규칙한 작업이 있는 SpMV 테스트를 기반으로 새로운 등급을 도입할 것을 제안했으며, 이는 유형에 따라 달라지는 피크와 관련하여 개발된 실제 성능 수준을 (Linpack과 비교하여) 크게 감소시킵니다. 희소 행렬의 0이 아닌 요소로 채우기.

이 논문에서 0이 아닌 요소로 채워진 22개의 희소 행렬에 대해 Xeon Phi(SE10P 보드, 최대 성능 - 61(코어) x 16(작업/클록) x 1.05GHz = 1024 GFLOPS)에 대한 결과가 제공됩니다. 다른 마이크로프로세서와의 비교: NVIDIA Tesla C2050(Fermi) - 448 CUDA 코어, 515 GFLOPS 피크 성능; Tesla K20(Kepler) - 2,496 CUDA 코어, 1 TFLOPS; 2인용 보드 인텔 제온 X5680(Westmere) - 12코어, 320GFLOPS; Intel Xeon E5-2670(Sandy Bridge) 2개가 있는 보드 - 16코어, 330GFLOPS. Xeon Phi의 실제 성능은 다른 매트릭스에서 2.5에서 22GFLOPS에 이르는 것으로 나타났습니다. 22개 중 11개 매트릭스에서 Xeon Phi 프로세서는 Kepler GPU보다 성능이 우수하지만 2배 이하입니다. Kepler GPU는 일반적으로 Fermi GPU보다 우수하고 Fermi GPU는 Westmere보다 2배 더 우수한 SandyBridge보다 우수합니다. 동시에 모든 마이크로프로세서에 대한 SpMV 테스트의 최고 성능에서 실제 성능의 비율은 매우 낮습니다. Westmere - 0.78–1.09%; 샌디브릿지 - 1.36–2.12%; GPU 페르미 - 0.68-2.52%; GPU 케플러 - 0.5–1.3%; 제온 파이 - 0.25–2.25%.

대부분의 경우 Xeon Phi가 SpMV 테스트에서 더 생산적인 것으로 판명되었지만 이득은 그리 크지 않고 어떤 경우에는 손실이 있었습니다. 대부분 가능한 원인이것은 메모리 작업에 소요되는 시간입니다. 높은 실제 성능이 예상되는 SIMD 장치는 피연산자가 없고 유휴 상태입니다.

오픈 소스는 제온 파이의 능력에 대한 일반적인 아이디어를 제공하지만, 그 능력에 대한 체계적인 연구 결과를 찾을 수 없어 자체 연구를 수행했습니다.

제온 파이 테스트 결과

분석을 위해 Xeon Phi 5110P 1.05GHz 마이크로프로세서가 16.8GFLOPS의 단일 코어 및 총 1.008TFLOPS의 최고 성능으로 사용되었습니다. Xeon Phi의 동시대인 8코어 슈퍼스칼라 마이크로프로세서 Xeon E5-2660 Sandy Bridge(2.2GHz, 최대 코어 성능 - 17.6GFLOPS)가 있는 현재 사용 가능한 2소켓 노드와 비교되었습니다.

이 연구는 의도적으로 부하를 변경한 테스트에서 메모리 하위 시스템 및 기능 단위의 효율성을 평가하는 것으로 시작되었습니다(사이드바 "가변 부하 테스트에 대한 평가" 참조). 결과 추정치는 잘못된 현지화의 경우 메모리 작업을 수행할 때 XeonPhi 코어에 대해 예기치 않게 큰 대기 시간 값과 Horner 다항식 테스트에서 낮은 실제 성능으로 우리를 놀라게 했습니다. 이 모든 것이 추가 연구로 이어졌습니다.

가변 부하 테스트에 대한 평가

APEX 표면(Apex-map 테스트)을 사용하여 테스트하면 테스트에 의해 합성된 액세스의 공간적 및 시간적 지역화에 따라 읽기를 위해 하나의 메모리 액세스에 소비된 프로세서 사이클 수를 결정할 수 있습니다. Xeon Phi 및 Sandy Bridge의 한 코어에 대해 이러한 표면은 유사하지만 특성이 다릅니다. 표는 APEX 표면의 극단점 특성을 보여줍니다. L - 최상의 공간 및 시간 위치 파악; G - 동시에 공간적 및 시간적 지역화 최악; F - 좋은 시간적 위치 및 열악한 공간적 위치 파악; T - 나쁜 시간적 위치와 좋은 공간적 위치 파악.

테이블. 제한 모드에서 읽기 요청 실행 지연
현지화 포인트 제온 파이 제온 샌디 브리지
1 스레드 60 스레드 120 스레드 1 스레드 16 스레드 32 스레드
포인트 L 1,7 0,2 0,3 1,1 0,1 0,1
지스팟 442,8 8,6 4,6 229,8 15,4 15,9
포인트 F 48,1 2,0 0,8 7,5 0,8 0,5
T-포인트 5,1 0,2 0,2 1,9 0,4 0,4

최상의 APEX 표면은 평평한 모양이어야 합니다. L, G, F 및 T 지점의 값은 크게 다르지 않고 가능한 한 작아야 합니다. 그러나 다음 표에서 알 수 있듯이 두 마이크로 프로세서 모두 이러한 특성을 분명히 제공하지 않습니다. 또한 Xeon Phi의 G 및 F 지점에서 예상하지 못한 큰 지연이 있는 것으로 나타났습니다. 특히 Xeon Phi의 클록 주파수가 2배 높기 때문입니다.

Apex-map 테스트에 사용되는 코어와 스레드가 증가함에 따라 APEX 표면의 품질이 향상되고 메모리 작업 수행에서 관찰된 지연이 눈에 띄게 줄어듭니다. 마이크로 프로세서의 특성 정렬은 Xeon Phi의 120개 스레드(240개 스레드를 실행할 수 있음)와 Sandy Bridge의 16개 스레드에서 발생합니다. 동시에 메모리에 대한 집중적인 불규칙 작업의 G 지점에서 Xeon Phi 프로세서는 이제 SandyBridge보다 눈에 띄게 우수합니다. 이것은 메모리에 대한 집중적이고 불규칙한 작업이 있는 작업에서 Xeon Phi가 2개의 Sandy Bridge와 관련하여도 이점이 있지만, 이는 한 쌍의 Sandy Bridge보다 10배 더 많은 스레드를 실행할 때만 달성된다는 것을 의미합니다. 이 결과는 예상했습니다.

개발된 실제 성능은 메모리 접근의 공간적, 시간적 지역화에 의존하며, 지역화는 프로그램에서 특정 데이터 접근 패턴의 사용에 의해 결정된다. 실제 성능은 또한 계산 작업 및 메모리 액세스 작업 프로그램의 균형에 따라 달라집니다. 계산 작업이 많은 경우 실행 배경에 대해 메모리 액세스 비용을 숨길 수 있습니다. 나열된 요소 중 하나와 다른 요소의 실제 성능에 대한 영향을 평가하기 위해 적용된 방법론은 Eurobench 세트의 두 가지 테스트 그룹을 사용합니다. 여기에서 테스트 중인 장비의 부하가 의도적으로 변경됩니다.

메모리 액세스 패턴의 영향을 평가하기 위해 벡터 요소에 대한 액세스가 더 어려워지는 벡터 요소별 곱셈 테스트 그룹이 사용됩니다. 단일 단계, 3단계, 4단계, 인덱스 벡터 기준. 이러한 액세스 복잡성으로 인해 성능 저하가 발생해야 함은 분명합니다. 이것이 일어나고 있는 일입니다. 벡터 길이가 증가함에 따라 단일 단계의 테스트 성능이 다음과 같이 변경됩니다. Xeon Phi - 처음에는 600 MFLOPS로 증가한 다음 200 MFLOPS로 떨어집니다. Sandy Bridge - 3000 MFLOPS로 증가한 다음 500 MFLOPS로 떨어집니다. 접근이 복잡해지면 단일 단계의 테스트에 비해 성능 저하가 다음과 같다. Xeon Phi - 먼저 100 MFLOPS 수준으로 떨어지고 벡터의 길이가 증가함에 따라 - 30, 10 MFLOPS; Sandy Bridge - 1.5 GFLOPS(3 또는 4 단위로 액세스) 및 700 MFLOPS(인덱스 벡터에 의한 액세스)로 떨어지고 벡터 길이가 증가하면 200–50 MFLOPS 수준으로 떨어집니다. 그래서, 좋은 패턴메모리 접근 시 Xeon Phi 코어의 성능은 Sandy Bridge 코어보다 2.5~5배 나쁘고 템플릿이 저하되면 6~10배, Sandy Bridge는 2~10배 저하됩니다.

계산 작업과 메모리 작업의 균형이 미치는 영향을 평가하기 위해 메모리 액세스에 대한 계산 작업 수의 증가와 함께 테스트 그룹이 사용되었습니다. 이 그룹의 기본 테스트는 요소에 대한 단위 단계가 있는 벡터의 요소별 곱셈입니다. 또한 그룹의 테스트에서 계산 연산의 비율이 증가했습니다. 한계 테스트 - Horner의 계획에 따라 9차 다항식 벡터의 각 요소에 대한 계산. 이 테스트에는 메모리 액세스당 18개의 계산 연산이 있으며, 현대 코어에서 일반적으로 1클록 주기의 속도로 수행되는 곱셈-덧셈 연산을 사용할 수 있습니다. 이러한 계산을 통해 일반적으로 커널의 최고 성능에 더 가까워질 수 있습니다. 수행된 연구에서 이 테스트를 통해 실제로 최대 실제 성능을 얻을 수 있었습니다. 또한 Xeon Phi - 약 3 GFLOPS(피크의 17.86%), Sandu Bridge - 약 9 벡터의 길이에 약하게 의존합니다. GFLOPS(피크의 51.14%).

그러나 Xeon Phi에서 개발된 실제 성능은 예상 외로 작았습니다.

아나톨리 미셴코프 ([이메일 보호됨]) - SPbGPU(상트페테르부르크).

코어에 내장된 SIMD 장치 덕분에 Xeon Phi가 높은 총 피크 성능을 갖는 것으로 알려져 있지만 실제 성능이 피크에 접근하는 것을 방해하는 것은 무엇입니까? 실제 애플리케이션에서 최대 성능에 접근하는 방법은 무엇입니까? 첫 번째 질문에 대한 답변이 원인에 대한 자세한 분석을 제공할 것이라고 가정했습니다. 긴 지연메모리 액세스, 그리고 두 번째 액세스에 답하면 최대 성능에 더 가까워질 수 있는 계산 작업과 메모리 작업의 균형을 찾는 데 도움이 됩니다.

메모리 작업 수행의 지연을 분석하기 위해 N 목록의 동시 순회 테스트를 사용할 수 있습니다.

while(count - > 0) (list1 = list1.next, list2 = list2.next, ... listN = listN.next)

각 목록의 다음 링크 다음은 새로운 비정규 메모리 액세스입니다. Xeon Phi 코어의 경우 일반적으로 명령이 순차적으로 실행되면 정보 의존성으로 인해 루프 본문의 명령문이 순차적으로 실행됩니다. Sandy Bridge 커널에서 일반적으로 발생하는 순서 없이 명령이 실행되면 명령문이 병렬로 실행되지만 커널 마이크로아키텍처에서 허용하는 경우에만 실행됩니다. SandyBridge의 이러한 병렬화는 메모리 작업의 흐름을 증가시켜 커널 허용 오차를 나타냅니다. 프로그램에서 볼 수 있는메모리 작업의 지연이 줄어듭니다.

이러한 테스트에 대한 평가 결과는 그림 1에 나와 있습니다. 1(XeonPhi, 공차 없음) 및 그림. 2(샌디브릿지, 허용차 있음). 목록의 길이가 길고 그 수가 많으면 지연 값의 차이가 100배에 이릅니다. 이것은 Xeon Phi 마이크로프로세서 코어의 단순성 또는 "가벼움"의 "가격"이며, 이는 마이크로프로세서의 최대 성능 이점을 무효화할 수 있습니다.

여러 스레드를 도입하여 N 목록의 순회 테스트를 변환하고 각각에 특정 수의 순회 목록이 할당되면 메모리 액세스 지연이 감소하는 허용 오차 속성의 모양도 볼 수 있습니다. 이는 메모리 작업 흐름의 증가로 인한 것이지만 이미 커널 하드웨어에서 무시할 수 있는 전환 시간을 제공하는 커널에서 여러 스레드된 라이트 스레드의 동시 실행으로 인한 것입니다. Xeon Phi 코어에서 2개의 스레드의 경우 대기 시간이 200사이클, 3개의 경우 145회로, 4개의 경우 100회로 감소합니다. Sandy Bridge 커널에서는 2개의 가벼운 스레드만 시작할 수 있으므로 20-40 사이클 지연. 따라서 Xeon Phi 코어의 작은 멀티스레딩으로도 메모리 액세스 지연을 크게 줄일 수 있어 테스트의 단일 스레드 버전에서 사용할 수 있었던 Sandy Bridge보다 100배가 아닌 2~5배 정도 지연되는 수준으로 가져올 수 있습니다. .

단일 스레드 및 다중 스레드 모드에서 지연 시간을 알면 계산 작업과 메모리 작업의 균형을 맞춰 프로그램을 최적화할 수 있습니다. 이러한 균형을 결정하기 위해 Horner의 계획에 따라 다항식을 계산하는 테스트가 사용되었습니다. 다항식의 차수, 코어 수, 코어에서 사용하는 쓰레드 수를 증가시켜 제온파이의 실제 성능을 높일 수 있는지 알아보았다.

10차(메모리 액세스당 20개 연산) 및 32차(메모리 액세스당 64개 연산)의 다항식에 대한 결과가 그림 3에 나와 있습니다. 3. 단일 코어의 경우 이렇게 많은 연산 연산을 수행하더라도 코어의 스레드 수가 증가함에 따라 성능이 눈에 띄게 향상됨을 알 수 있습니다. 이것은 사전에 명확하지 않았으며 10차 다항식의 큰 벡터 길이의 경우 실제로 그러한 증가가 없습니다. 다항식의 차수를 32로 높이면 코어에서 4개의 스레드를 사용할 때 실제 성능에서 최대 성능의 70%를 달성할 수 있습니다. 코어의 L2 캐시를 넘어서는 것을 의미하는 벡터의 길이가 증가하면 실제 성능이 눈에 띄게 감소하지만 계산 작업(32차 다항식)의 많은 부분을 사용하면 훨씬 덜 두드러집니다. , 측정된 성능의 불안정성은 큰 벡터 길이에서 나타납니다.

그런 다음 계산 작업이 많은 테스트에서 다중 코어와 스레드를 사용하는 것의 효율성을 평가하기 위한 연구가 수행되었습니다. 벡터 크기는 커널의 L2 캐시보다 크며 특정 수의 L2 액세스 실패를 가정하는 1MB로 가정했습니다. Xeon Phi의 모든 코어에 대한 캐시 일관성을 보장한다는 측면에서 미스를 제공하는 것은 다음에 따라 복잡하고 비용이 많이 드는 프로세스입니다. 대역폭온칩 네트워크이며 그다지 좋지 않습니다. 지금까지 32코어까지 측정한 결과 1MB 벡터의 경우 관련된 코어 및 스레드 수가 증가함에 따라 실제 성능이 증가하고 32차 다항식에 대해 양호한 수준을 유지하는 것으로 나타났습니다. , 그리고 10차 다항식의 경우 16개의 핵 이후에 이미 저하가 눈에 띕니다.

지금까지 실제 성능에서 거의 완벽한 결과는 a[i] = a[i]*b[i] - c[i]와 같은 테스트에서만 16개 요소의 벡터 길이 - 987 GFLOPS(97%의 피크). 이 테스트에서는 메모리 액세스가 전혀 없으며 SIMD 작업은 루프 본문에 있지만 각 주기에서 시작됩니다. 주기당 두 개의 명령을 실행하는 기능에 영향을 미치므로 주기 관리 비용은 여기에 표시되지 않으며 SIMD 작업 실행으로 처리됩니다.

수행된 테스트를 통해 다음과 같은 결론을 도출할 수 있었습니다.

  • Xeon Phi의 많은 코어와 스레드는 슈퍼스칼라 마이크로프로세서에 대해 더 높은 허용 오차를 제공하므로 메모리에 대한 집중적이고 불규칙한 작업으로 정보 분석 및 기타 정수 문제를 효과적으로 해결하는 데 사용할 수 있습니다.
  • 부동 소수점 연산에서 Xeon Phi의 실제 성능은 SIMD 장치의 로드에 크게 의존하며, 이는 메모리 작업 비용에 부정적인 영향을 받습니다. 효율성을 보장하려면 다음이 필요합니다. 모든 커널 스레드를 사용합니다. 코어에서 데이터의 시공간적 위치를 최대화하기 위해 노력합니다. 메모리 작업과 관련하여 계산 작업의 수십 배의 비율을 제공합니다.
  • 제한된 대역폭의 온칩 네트워크 및 메모리 인터페이스와 함께 많은 수의 코어를 사용하려면 이를 최적화하기 위한 새로운 기술의 사용이 시급합니다. 또한, 메모리 접근 감소(스레딩 모델), 연산의 비동기성 및 지연에 대한 내성 증가(멀티 쓰레드 모델 및 연산 프로세스와 데이터 접근 프로세스가 분리된 모델) 측면에서 적용 연산 모델을 개선할 필요가 있습니다.

측정 결과 실제 응용 프로그램 Xeon Phi의 최고 성능은 쉽지 않습니다. 이는 OpenMP, CUDA, OpenACC 및 OpenCL을 대체하기 위해 새로운 프로그래밍 환경 OpenMCC를 구현하는 프로젝트를 시작한 TH-2 개발자가 고려한 것입니다. OpenMCC 환경은 Xeon Phi 코어의 명령 시스템과 사용된 슈퍼스칼라 마이크로프로세서의 통합을 고려하여 서로 다른 코어 간의 작업을 보다 자유롭게 분할하고 계산 프로세스에서 코어의 부하 균형을 제어하고 데이터 및 계산을 현지화하고 교환을 최적화합니다. 개발자가 대규모 하이브리드 시스템의 병렬 프로그래밍을 위한 자동화된 도구를 만드는 것은 이번이 처음이 아닙니다. Tianhe-1A의 경우 TH-HPI 소프트웨어 인프라가 생성되어 효율성을 보장할 뿐만 아니라 시스템의 하이브리드를 투명하게 만들었습니다. 사용자.

TH-2의 기반이 되는 Kylin Linux 운영 체제는 멀티 코어 및 멀티 스레드 시스템에서 작동하도록 최적화되었으며 보안이 강화된 이기종 클라우드 환경을 생성할 수 있는 가상화 도구를 지원하고 다음을 포함합니다. 하이브리드 컴퓨팅 노드의 리소스, 대용량 다중 스레드 마이크로프로세서 FT-1500의 서비스 노드 리소스.

엑사스케일 시스템용 Xeon Phi의 "후손"

Xeon Phi 유형의 대규모 다중 코어 다중 스레드 스레드 마이크로프로세서의 생성은 현대 HPC 산업의 불가피한 것이며 단점(약한 내부 및 외부 인터페이스, 허용 오차를 보장하기 위한 낮은 스레딩)은 차세대에서 확실히 제거될 것입니다. 마이크로프로세서이지만 같은 유형입니다. 이러한 미래 마이크로프로세서의 예로 우리는 10TFLOPS 이상의 성능으로 생성되는 두 개의 유망한 마이크로프로세서, 즉 Echelon 프로젝트 마이크로프로세서(NVIDIA 및 Cray)와 Corona 프로젝트 마이크로프로세서(HP)를 가리킬 수 있습니다.

Echelon 프로젝트의 하이브리드 마이크로프로세서(10nm 기술에 중점)에는 8개의 슈퍼스칼라 코어와 256개의 스레드 블록, 블록에 8개의 다중 스레드 코어가 포함되어 있으며 각각 명령을 실행하기 위해 4개의 활성 스레드 채널을 사용하여 64개 스레드를 지원합니다. 커널 스레드는 비동기식 및 동기식으로 모두 실행할 수 있습니다. 마이크로프로세서의 총 코어 수는 1032개 이상, 스레드 수는 65,536개 이상이며, 마이크로프로세서의 피크 성능은 16TFLOPS, 16개 컨트롤러와의 메모리 인터페이스 대역폭은 2TB/s, 노드 간 통신 네트워크와의 16개 인터페이스는 0, 4TB/s입니다. 컴퓨팅 노드에서 마이크로프로세서는 512GB 이상의 메모리로 작동합니다. 이러한 마이크로프로세서를 기반으로 하는 엑사스케일 시스템의 생성은 2018년에 계획되어 있습니다.

HP 코로나 프로젝트의 마이크로프로세서(16nm 기술에 중점)는 256개의 동종 코어(각 코어에 4개의 스레드)를 포함합니다. 10TFLOPS 이상의 최고 성능을 제공하는 이 제품은 메모리 집약적인 간헐적 애플리케이션을 위해 구축되었습니다. 이 마이크로프로세서는 그 점에서 흥미롭다. 최신 기술: 64개의 파장에서 정보의 동시 전송이 있는 실리콘 도파관 세트의 광학(나노광자) 온칩 네트워크 및 인터페이스. 주변이 아닌 다이 평면에서 통합을 보장하기 위해 연결이 있는 3D 다이 어셈블리; 마이크로렌즈 어레이와 미니어처 레이저를 사용한 3D 크리스탈 어셈블리 간의 광학 연결. 칩 내 64채널 네트워크는 각각 4개의 프로세서 코어가 있는 링으로 64개의 클러스터를 연결합니다. 클러스터에는 4개의 도파관으로 구성된 자체 채널이 있으며, 각 채널은 64개의 파장에서 동시에 정보를 전송합니다. 소유자 클러스터는 채널에서 데이터를 읽을 수 있지만 다른 클러스터는 쓰기만 할 수 있습니다. 한 주기(5GHz)에 대해 64바이트(캐시 라인)는 한 채널에서만 전송됩니다. 온칩 네트워크의 총 처리량은 20TB/s입니다. 네트워크 소비 - 39W HP 코로나의 메모리 인터페이스는 각각 160GB/s의 64개의 메모리 컨트롤러를 통해 구현되며, 메모리 소비 전력은 6.4W이며, 각 컨트롤러의 인터페이스는 각각 64파장의 단일 도파관 2개로 총 10TB/s를 남깁니다. . 이러한 마이크로프로세서를 기반으로 하는 엑사스케일 시스템의 생성은 2017년 이후로 예상됩니다.

이러한 이국적인 원소 기반의 개발을 위한 준비는 오늘날 이미 진행 중입니다. 이것은 정확히 TH-2에서 XeonPhi 유형 마이크로 프로세서 사용의 숨겨진 의미 중 하나입니다.

동시성 및 시스템 소프트웨어 문제의 정도

프로세서 코어 수에 따라 결정되는 최신 슈퍼컴퓨터의 병렬 처리 정도는 10 6 수준으로 추정됩니다. 예를 들어, 현재 Top500 순위(2013년 여름)에서 2위인 Cray Titan은 560,840개의 코어를 포함하고 TH-2는 이미 3,120,000개의 코어를 포함합니다. 엑사스케일 컴퓨터에서는 성능이 3배 이상 향상되어야 하며, 이는 병렬 처리의 증가로 인해 가능하므로 코어 수는 최소 10 9 이어야 합니다. 이러한 추정의 신뢰성은 메모리 액세스 지연에 대한 내성을 보장하기 위해 커널의 다중 스레드 아키텍처를 사용해야 하므로 병렬 처리 수준이 100~2000배 더 증가한다는 사실에 의해 뒷받침됩니다. .

이 정도의 병렬성은 Xeon Phi와 같은 마이크로프로세서에 의해 제공되지만 세대 병렬 프로세스 10 9 수준에서 프로그램 실행 과정에서 작업 지원은 시스템 소프트웨어 개발자에게 가장 심각한 문제입니다. 가장 큰 어려움은 OS 수준이 아니라 스트리밍 및 멀티스레딩과 같은 새로운 컴퓨팅 모델을 구현하는 사용자 프로그램 수준에서 실행 프로세스를 제어하는 ​​프로그램 실행 지원 시스템(런타임 시스템)의 작성자를 기다리고 있습니다. 사실 오늘날 대다수의 리서치 프로젝트 DARPA 및 DoE 라인에 따른 엑사스케일 주제에 대한 이러한 작업은 TH-2에서도 수행되고 있습니다.

무어 이후 시대에 만들어진 요소 설계 기반이 사용될 엑사플롭 이상의 시스템에서 병렬도는 훨씬 더 높을 것으로 예상된다. 이러한 이유로 DARPA STARnet 프로그램에서 6개의 획기적인 연구 센터 중 하나는 이미 10 12 수준에 있는 병렬 처리를 위한 모델 및 시스템 소프트웨어를 만드는 데 중점을 두고 있습니다.

계층 구조 및 이질성과 함께 전례 없는 규모로 세계 실무에 제공되는 TH-2 슈퍼컴퓨터의 하이브리드 특성은 복잡한 과학 및 기술 문제를 해결할 수 있을 뿐만 아니라 필요한 특성을 결정하기 위한 고유한 실험 설정으로 간주되어야 합니다. 엑사스케일 시스템의 미래 요소 설계 기반. 이 슈퍼컴퓨터가 지금까지 도달할 수 없는 수준의 병렬성을 가진 새로운 계산 모델의 사용에 중점을 둔 시스템 소프트웨어 생성에 대한 대규모 연구를 수행할 수 있다는 사실도 중요합니다.

문학

  1. Dongarra J. 중국 창사국방기술대학 방문. 2013년 6월 3일
  2. Yang Xue-Jun et al. TianHe-1A 슈퍼컴퓨터: 하드웨어와 소프트웨어. 컴퓨터 과학 및 기술 저널, 26(3): 344-351, 2011년 5월.
  3. Saule E. et al. Intel Xeon Phi에서 Spsrse Matrix Multiplication Kernel의 성능 평가. 2013년 2월 5일, 19페이지

드미트리 안류신 ([이메일 보호됨]), 빅토르 고르부노프 ([이메일 보호됨]), 레오니드 아이시몬트 ([이메일 보호됨]) - Federal State Unitary Enterprise "NII"Kvant ""(모스크바)의 직원. 이 기사는 IV 모스크바 슈퍼컴퓨터 포럼(MSCF-2013, RFBR 보조금 13-07-06046)에서 저자가 발표한 보고서 자료를 기반으로 작성되었습니다.

지구상에 존재하는 가장 강력한 컴퓨터의 등급을 발표했습니다. 목록에는 총 500개의 장치가 포함됩니다. 연구원들에 따르면 컴파일 시 솔루션의 속도와 같은 지표를 기준으로 삼았고 발표된 데이터에 따르면 오늘날 세계에서 가장 강력한 컴퓨터는 중국인이 만든 Tianhe-2이다. 과학자.

컴퓨터 성능

Linpack 벤치마크 결과에 따르면 이 기계는 1초에 33조 8600억 작업을 수행할 수 있습니다. 이 지표에 따르면 2013년은 약 3년 전에 처음 시연된 전임자 Tianhe-1을 거의 15배나 앞질렀습니다. 중국 엔지니어에 따르면 이러한 인상적인 개발 성능은 소위 극한 병렬 모델을 사용하여 달성되었습니다. 이것은 나중에 논의될 다수의 Phi 보조 프로세서의 사용을 기반으로 합니다. 다른 많은 개발자도 비슷한 접근 방식을 사용하고 있으며 해당 개발자의 기기도 등급에 포함되어 있습니다.

장치의 내부 "채우기"

세계에서 가장 강력한 컴퓨터에는 312만 개의 코어가 있습니다. 장치 내부에는 32,000개의 기능이 있습니다. 인텔 프로세서 Xeon 및 48,000 Xeon-Phi 보조 프로세서. 그들로 인해 이러한 목적을 위해 특별히 개발 된 "TN Express-2"기술로 인해 위의 개별 코어 수가 형성되고 서로 결합되었습니다. Tianhe-2가 운영하는 메모리의 양은 1페타바이트입니다. 에 관하여 운영 체제, 대부분 강력한 컴퓨터세계에서 Kylin Linux에서 실행됩니다. 장치의 전기 소비는 17.8 메가 와트입니다. 이 컴퓨터의 독점 기능(프로세서, 운영 체제, 상호 연결, 소프트웨어 및 응용 프로그램 포함)의 대부분은 중국에서 개발 및 구현됩니다. 유일한 예외는 다음의 칩을 기반으로 하는 기계의 컴퓨팅 성능입니다. 인텔에서.

배포 장소 및 범위

개발자에 따르면, 처음에는 세계에서 가장 강력한 컴퓨터가 2015년에 출시될 예정이었지만, 긍정적인 결과이 용어의 약어로 이어졌습니다. 현재 장치의 위치는 중국 국방 기술 대학입니다. 현재까지 기후변화 예측, 각종 대규모 연산, 극한 조건에서의 기기 운용 등 각종 테스트가 진행되고 있다.

기타 강력한 컴퓨터

집계된 등급을 보면 세계에서 가장 강력한 컴퓨터뿐만 아니라 중국 개발임을 알 수 있습니다. 그 외에도이 목록에는이 나라의 영토에서 건설되고 운영되는 다른 64 대의 자동차가 포함됩니다. 가장 강력한 장치(즉, 253)의 대부분은 주어진 시간미국에서. 흥미로운 사실, 목록의 대표자와 관련된 것은 인텔의 칩이 10가지 중 8가지 경우에 여기에 사용된다는 것입니다.

2013년 6월부터 3년 동안 세계 상위 500위 슈퍼컴퓨터의 첫 번째 라인은 중국 Tianhe-2가 차지했습니다. 성능은 33.8Pflops 이상이며 최고 성능은 54.9Pflops입니다. 동시에 이 기계는 인텔 프로세서에서 실행되기 때문에 슈퍼컴퓨터가 사실 완전히 중국인은 아니라고 말할 수 있습니다. 그러나 지금은 상황이 근본적으로 바뀌었습니다.

최신 버전 2016년 6월 20일에 발표된 Top500에서는 새로운 중국 슈퍼컴퓨터인 Sunway TaihuLight가 1위를 차지했습니다. Linpack 테스트에서 슈퍼컴퓨터는 93Pflops의 결과, 즉 Tianhe-2를 거의 3배 능가하는 결과를 보였습니다. 기계의 최고 성능은 125Pflops입니다.

Sunway TaihuLight는 국립 센터상하이에서 차로 2시간 거리에 있는 우시에 슈퍼컴퓨터. 슈퍼컴퓨터는 40,000개의 노드를 구성하는 1,000만 개의 코어를 가지고 있습니다. 동시에 Sunway TaihuLight는 중국에서 설계 및 제작된 프로세서인 ShenWei SW26010으로 완전히 구동됩니다.

인텔 프로세서의 중국 공급을 제한한 미국의 금수 조치는 자체 칩 생성에 기여할 수 있습니다.

“제 생각에는 금수 조치가 도움이 되지 않았다”고 “SKC” 슈퍼컴퓨터 책임자인 Peter Great St. Petersburg Polytechnic University의 텔레매틱스학과 부교수 Aleksey Lukashin은 동의하지 않습니다. 센터 "Polytechnic"이 있습니다. 약 1 년 전에 ShenWei 프로세서가 훨씬 더 오래 개발되었지만 외부 제재를 도입하면 개발 프로세스가 어느 정도 가속화 될 수 있습니다.간접적으로 중국에 서구 프로세서의 존재도 도움이 될 수 있습니다 , 리버스 엔지니어링 속도를 높이고 자체 생산을 설정할 수 있습니다.자신의 프로세서를 만드는 것 외에도 중요한 요소는 컴퓨터 간의 고속 데이터 교환 네트워크인 자체 상호 연결의 개발입니다. 슈퍼컴퓨터의 성능에 영향을 미쳤을 가능성이 큽니다."

그는 러시아에는 슈퍼컴퓨터에 사용할 수 있는 완전히 국내 생산된 프로세서가 없는 것 같다고 덧붙였습니다.

Alexei Lukashin은 "오늘날 대답은 예보다 아니오일 가능성이 더 높다고 생각합니다. Elbrus는 아직 필요한 지표에 도달하지 않았지만 상호 연결 측면에서 JSC NITSEVT에서 개발 중인 Angara 통신 네트워크를 예로 들 수 있습니다."라고 말합니다. 우리는 이미 국제 시장에서 얻은 권위와 외국 동료 및 국제 석사 프로그램 학생들의 학업 과정에 적극적으로 참여함으로써 촉진되는 슈퍼 컴퓨터의 힘을 사용하여 글로벌 프로젝트를 구현하는 분야에서 성공적으로 작업하고 있습니다. 여름 폴리테크닉 학교로."

현재 중국 슈퍼컴퓨터는 Top500에서 1위와 2위를 차지하고 있습니다. 오크리지 국립연구소에 설치된 아메리칸 타이탄은 3위에 올랐다. 상위 10위 안에는 일본, 스위스, 독일, 사우디아라비아의 슈퍼컴퓨터도 포함됩니다.

현재 등급의 모스크바 주립 대학의 Lomonosov-2 슈퍼 컴퓨터는 이전보다 10 라인 낮은 41 위를 차지합니다. 또한 상위 100위 안에 드는 유일한 러시아 슈퍼컴퓨터이기도 합니다.

Peter Great St. Petersburg Polytechnic University에 위치한 클러스터 슈퍼컴퓨터 "Polytechnic RSC Tornado"는 158위를 차지했습니다. 얼마 전 Telecomblog는 폴리테크닉 대학의 슈퍼컴퓨터 센터를 방문했습니다. 보고서는 다음과 같습니다.

2001년에 중국 슈퍼컴퓨터는 세계 순위에 전혀 들지 못했습니다. 이제 처음으로 중국은 1위 자동차 수에서 미국을 추월했습니다. 미국의 165대와 비교하여 167대가 있습니다.

Linpack 테스트에 따른 Top500. 이전 6개 버전과 달리 순위 1위가 바뀌면서 중국 슈퍼컴퓨터 Sunway TaihuLight(神威 太湖之光)가 Linpack 테스트에서 93페타플롭(이론적 성능은 125.4페타플롭)의 결과로 1위를 차지했다. . 그 성능은 목록의 이전 리더인 중국 Tianhe-2보다 약 3배 높습니다.

새로운 슈퍼컴퓨터는 중국 병렬 컴퓨터 공학 및 기술 국가 연구 센터에서 개발했습니다. 이 시스템은 중국 동부 장쑤성 우시에 있는 국립 슈퍼컴퓨팅 센터에 있습니다.

슈퍼컴퓨터는 ShenWei 제품군의 새로운 중국 프로세서인 SW26010을 기반으로 합니다. 아마도 28nm 기술을 사용하여 제조되었습니다. 각 프로세서에는 260개의 코어가 장착되어 있으며 1.45GHz에서 실행되며 3.06테라플롭의 성능을 제공합니다.

프로세서는 상하이 고성능 IC 디자인 센터에서 설계되었습니다. 프로세서는 칩의 내장 네트워크로 연결된 4개의 유사한 코어 블록(코어 그룹)으로 구성됩니다. 각 블록에는 8x8 어레이에 하나의 제어 코어(Management Processing Element, MPE), DDR3 메모리 컨트롤러(128비트) 및 64개의 컴퓨팅 코어(Computing Processing Elements, CPE)가 있습니다. 두 가지 유형의 커널 모두 잘못된 마이크로아키텍처를 가지고 있습니다. MPE 제어 코어는 운영 체제와 사용자 코드의 실행을 모두 지원하고 264비트 벡터 연산을 사용하며 명령 및 데이터용으로 32KB의 L1 캐시와 256KB의 L2 캐시를 포함합니다. 컴퓨팅 CPE 코어는 264비트 벡터로만 사용자 코드를 실행할 수 있으며 16KB의 명령어 캐시와 64KB의 임시 메모리(스크래치 패드 메모리)를 사용합니다. 4개의 코어 블록 각각은 8GB에 액세스할 수 있습니다. 랜덤 액세스 메모리 DDR3-2133이므로 노드에는 최대 136.5GB/s의 총 대역폭과 32GB의 RAM이 있습니다.

MPE 코어에 대한 SIMD 계산의 성능은 CPE 코어에서 클럭당 16개의 배정밀도 부동 연산(64비트)이며, 클럭당 8개입니다. 1.45GHz에서 MPE 코어의 전체 성능은 23.2기가플롭, CPE 코어 - 11.6기가플롭에 도달할 수 있습니다.

전체적으로 슈퍼컴퓨터는 40개의 컴퓨팅 랙에 있는 40,960개의 단일 프로세서 노드에서 1,060만 개 이상의 코어를 사용합니다. 각 랙에는 4개의 수퍼노드가 있으며 수퍼노드는 각각 8개의 노드가 있는 32개의 모듈로 구성됩니다. 모듈에는 수냉. 슈퍼 컴퓨터의 주요 네트워크에 대한 세부 정보가 거의 없으며 각 SW26010 칩에는 PCI 익스프레스 3계층 네트워크 "Sunway Network"에 대한 3(16x) 연결. 네트워크 직경 - 7, "양분 대역폭" - 70TB/s. Dongarra는 채널 대역폭이 약 12Gb/s(100Gb/s)이고 대기 시간이 1µs 정도인 Mellanox 호스트 채널 어댑터 칩과 스위치를 사용한다고 말했습니다.

HPL 테스트(Linpack)의 계산 효율성은 이론적인 성능의 74%였습니다. 동시에, 보다 복잡한 HPCG 테스트에서 시스템은 피크 수준의 0.3%(일부 시스템은 1-3%에 도달)만을 보여주었으며, 이는 상대적으로 느린 메모리와 불충분한 네트워크 대역폭을 나타냅니다. SW26010의 경우 메모리 대역폭에 대한 피크 플롭의 비율은 22.4플롭/바이트입니다(비교를 위해 Intel Knights Landing은 7.2플롭/바이트). Dongarra는 또한 시스템에 RAM이 1.3PB로 상대적으로 거의 없다고 언급했습니다(Tianhe-2는 1.4PB, 이미 Top500에서 3위를 차지하고 있는 American Titan은 0.71PB).

HPL 테스트를 수행하는 동안 슈퍼컴퓨터의 평균 전력 소비는 15.3MW(Tianhe-2의 경우 17MW보다 약간 낮음)였으며 최대값은 18MW 미만이었습니다. Dongarra는 와트당 6기가플롭의 에너지 효율성을 추정했습니다(CPU, 메모리 및 네트워크 소비 고려). 새로운 슈퍼컴퓨터

중국 슈퍼 컴퓨터는 자체 생산의 미세 회로를 기반으로 구축되었으며 외국 회사에서 생산한 구성 요소가 없습니다. 그들의 아이디어가 세계에서 가장 빠른 컴퓨터라는 칭호를 받았기 때문에 Celestial Empire의 대표자들에게는 더욱 즐거운 일입니다. 사실, 이 사실은 이 나라가 지난 몇 년 동안 이룩한 첨단 기술 분야의 성공을 확인시켜줍니다. 중국이 미국으로부터 받은 반도체 생산기술을 바탕으로 자체 칩 생산에 돌입했다고 할 수 있다. 높은 학위경쟁력과 품질.

나름대로 컴퓨팅 파워새로운 챔피언 Sunway TaihuLight는 전임자(그런데 "중국어"라고도 함) Tianhe-2를 3배 이상 능가합니다. 초당 93조의 연산 연산(페타플롭이라고도 함)을 수행할 수 있습니다. 오늘날 미국이 가지고 있는 가장 생산적이고 강력한 시스템은 Sunway TaihuLight보다 약 5배나 약합니다. 지금은 세계 3위를 차지했습니다.

TaihuLight의 경우 각각 260개의 코어가 있는 41,000개의 프로세서가 있습니다. 총 1065만 개의 코어가 하나의 시스템에서 작동합니다. 비교를 위해: 미국 최고의 머신에는 560,000개의 코어가 있습니다. 우리가 메모리 양에 대해 이야기한다면 숫자는 그다지 인상적이지 않습니다.이 슈퍼 컴퓨터의 모든 것에 대해 1.3페타바이트에 불과합니다. 다시 비교를 위해 10페타플롭의 성능을 가진 훨씬 덜 강력한 슈퍼컴퓨터 K는 1.4페타바이트의 RAM을 가지고 있습니다. 그러나이 사실은 단점에 기인 할 수 없습니다. 그것은 밝혀 새로운 시스템에너지 소비 측면에서 매우 경제적입니다. 15.3메가와트의 에너지만 필요합니다. 이전 챔피언이었던 Tianhe-2 슈퍼컴퓨터에 전력을 공급하려면 33페타플롭, 17.8메가와트의 성능이 필요합니다.

중요한 요소는 TaihuLight가 독점적으로 중국산 반도체를 기반으로 한다는 것입니다.

테네시 대학의 교수이자 현존하는 모든 슈퍼컴퓨터에 등급을 부여하는 데 사용되는 시스템의 창시자인 Jack Dongarra는 "그것은 다른 아키텍처를 가지고 있습니다. 중국인들이 직접 구축했습니다"라고 Bloomberg 특파원 Jack에게 설명합니다. 동가라.

미국, 고성능 프로세서 중국 수출 금지

이전에 가장 빠른 컴퓨터인 Tianhe-2도 중국에 속해 있었고 Intel 프로세서를 기반으로 했습니다. 작년에 Tinahe-2를 업그레이드할 계획이 있었는데 중국인은 성능을 높이고 싶었습니다. 그러나 2015년 4월 미국 정부는 모든 유형의 수출을 금지하기로 결정했습니다. 강력한 프로세서. 미 상무부는 그러한 상품과 기술의 수출이 미국의 국가 안보 이익에 "해를 끼치는 행위"라고 말했습니다. 더욱이 미국인들은 이전 세대 슈퍼컴퓨터 중 하나인 Tianhe-1A가 "중국의 원자력 발전에 사용되었다"고 의심하기 시작했습니다.

미국과 중국 모두에서 슈퍼컴퓨터가 국가 안보 시스템의 필수적인 부분이자 첨단 과학 연구를 수행하는 수단이라고 믿기 때문에 여기에는 어느 정도 진실이 있을 수 있습니다. 그들의 목표는 기후 변화를 예측하거나 새로운 산업 제품을 설계하는 것과 같은 평화로운 것일 수 있습니다. 슈퍼컴퓨터는 과학자들이 핵무기 생성이나 사이버 보안 문제 연구를 포함하여 최신 군사 기술을 개발하는 데 도움이 될 수도 있습니다. TaihuLight의 제작자는 산업 생산, 생물 의학 문제 연구 및 지구 모델링 분야에서 사용될 것이라고 말합니다.

중국이 수년간 해온 고성능 반도체 프로세서의 개발과 창출에 대한 투자에 주목해야 한다. 최근 몇 년우수한 결과를 보였습니다. 2001년 세계 슈퍼컴퓨터 순위에서 이 나라는 상위 500위 안에 들었습니다. 현재 평가 목록에는 167개, 미국에는 165개 위치가 있습니다. TaihuLight의 개발 및 생성은 소위 "863번째 프로그램"에 따라 수행되었습니다. 외국 기술에 대한 국가의 의존도를 종식시키는 것을 목표로 하는 중국 정부 프로젝트입니다.

모든 중요한 United Traders 이벤트에 대한 최신 정보를 얻으십시오.