교토 대학교는 기술 혁신과 학문적 우수성의 최전선에 있으며, 대학 산하의 ACCMS(컴퓨팅 및 미디어 학술 센터)는 고급 컴퓨팅 및 미디어 연구를 위한 역동적인 중심지입니다. ACCMS는 수년간 최첨단 컴퓨팅 리소스를 통해 획기적인 과학 연구 및 개발을 추진하는 구심점 역할을 해왔습니다. 이렇게 계속되는 발전은 컴퓨팅 연구의 한계를 밀어붙인다는 목표를 가지고 기술 발전의 최전선에 머물겠다는 의지를 반영합니다.
그러나 이렇게 발전이 이루어지고 있음에도 불구하고, 여전히 해결할 과제가 있다는 것은 명백합니다. 연구 과정에 필수적인 많은 복잡한 시뮬레이션 코드는 기존 고성능 컴퓨팅(HPC) 리소스 내에서 메모리 대역폭과 관련된 제약에 직면해 있습니다. 더 쉽게 말해서, 이러한 코드가 메모리에서 읽고 쓰는 속도가 전반적인 성능에 영향을 미치는 제한 요소로 작용합니다.
이러한 메모리 대역폭 제한은 컴퓨팅 연구원에게는 끊임없는 숙제입니다. 연구원은 코드의 성능을 극대화하기 위해 이러한 제약 안에서 코드가 작동하도록 최적화할 방법을 모색하고 있었습니다. 메모리를 더 효율적으로 사용하거나, 코드가 HPC 시스템의 메모리 계층 구조에 더 잘 맞게 조정하거나, 메모리 대역폭에 덜 의존하는 새로운 알고리즘과 기술을 개발하는 것 등이 있을 수 있습니다.
이러한 지속적인 최적화 추구는 교토 대학교가 인텔과 협력하여 슈퍼컴퓨팅 시스템을 업데이트하도록 이끌었습니다. 최신 인텔® 제온® CPU Max 시리즈를 탑재한 새 시스템은 균형 잡힌 HPC 인프라 내에서 탁월한 고성능 메모리 대역폭, 광범위한 메모리 용량, 최적의 병렬 성능에 대한 사용자 요구 사항을 충족하도록 설계되었습니다.
"교토 대학 시스템에서는 응용 프로그램을 위한 사용자 친화적인 CPU가 필요했습니다. 즉, 높은 B/F 값, DDR5를 갖춘 x86 CPU, 대용량 메모리 x86 시스템이 필요했던 겁니다. 그리고 저희 연구 결과에 따르면, 요구 사항에 맞는 CPU는 인텔 제온 CPU Max 시리즈 외에는 없었습니다."—교토 대학교 ACCMS 컴퓨팅 연구부 부교수 Keiichiro Fukazaw
컴퓨팅 리소스 향상의 필요성
효과적인 과학 연구를 위해서는 결과 산출의 가속화가 지속적인 목표입니다. 더 빠른 실행 시간에 대한 요구 사항 외에도 연구자들은 여러 가지 주요 과제에 직면해 있습니다. 이러한 장애물은 데이터 관리 및 분석의 복잡성부터 고급 컴퓨팅 리소스 필요성에 이르기까지 매우 다양합니다. 이러한 과제를 이해하고 해결하는 것은 연구자가 빠르게 과학적 발견을 이루고 혁신을 가속하는 데 매우 중요합니다.
컴퓨팅의 급격한 발전으로 더 빠르고 더 규모가 큰 연산에 대한 수요가 증가했습니다. 교토 대학교의 경우, 복잡성과 컴퓨팅 요구 사항이 증가함에 따라 보다 강력한 리소스에 대한 필요성이 분명해졌습니다. 더 짧은 시간 내에 결과를 도출하고 연구 생산성을 높이는 데 필요한 컴퓨팅 성능을 위해서는 이러한 고급 리소스가 필수였습니다. 그러나 더 빠른 실행 시간에 대한 요구 사항 외에도 워크로드가 증가하고 더 큰 규모의 작업을 처리해야 할 필요성이 발생함에 따라 노드당 더 많은 메모리 대역폭이 필요하다는 것이 또 다른 주요 과제입니다.
"연구 성과의 발전을 위해, 연구원은 더 빠르고 광범위한 프로그램 실행을 지속적으로 노력합니다."라고 교토 대학교 ACCMS 컴퓨팅 연구부 부교수 Keiichiro Fukazawa가 설명합니다. "주요 요구 사항은 노드당 메모리를 넉넉하게 할당해야 한다는 필요성을 중심으로 이루어집니다"라고 그는 덧붙입니다.
솔루션 찾기
과학적 결과를 신속히 얻기 위한 더 빠른 처리와 더 큰 메모리 용량을 강조하는 것은 연구 커뮤니티 내의 지속적인 노력을 반영합니다. 이는 컴퓨팅 시스템의 효율성과 기능을 향상하여 점점 더 복잡해지고 데이터 집약적이 되고 있는 과학적 과제를 해결하는 데 중요합니다. 교토 대학교가 ACCMS HPC 시스템 업데이트 절차를 시작할 때 찾던 것도 바로 이것이었습니다.
Fukazawa 교수는 "몇 년 전에 우리 주요 HPC 시스템은 인텔® 제온 Phi™ 프로세서 7250 기반으로 구성되었습니다. 이 구성에는 16GB의 MCDRAM이 포함되었고, 최대 성능이 3TFlops, 대역폭은 유닛당 약 400GB/s임에도 불구하고 B/F 값이 0.1333이었습니다. 이 값은 당시 DDR4 메모리에 비해 더 높은 대역폭을 나타냅니다. 그러나 이전 시스템을 구현한 지 약 5년이 지난 후, 컴퓨터 기술이 발전하면서 더 빠르고 규모가 큰 컴퓨팅에 대한 수요가 증가했습니다. 게다가, 인텔 제온 Phi 프로세서에서 벡터화되지 않은 응용 프로그램의 성능 저하를 관찰했습니다. CPU 코어 문제로 인해 발생하는 것 같았습니다."
대규모 시뮬레이션과 복잡한 컴퓨팅이 일반적인 HPC 및 슈퍼컴퓨팅의 맥락에서 시스템 성능을 최적화하려면, 컴퓨팅 성능과 데이터 전송 효율성을 모두 고려해야 합니다. B/F 값(Bytes/Flop 값)은 각 부동 소수점 연산에 필요한 데이터 이동량을 나타내어 시스템이 컴퓨팅 리소스를 얼마나 잘 활용하는지에 관한 인사이트를 제공합니다. 이 점을 고려하여 Fukazawa 교수는 현재 시스템을 높은 B/F 값의 CPU로 개선하는 것이 시급하다는 사실을 강조했습니다.
따라서 Fukazawa 교수의 지도 하에 ACCMS는 HPC(고성능 컴퓨팅)에서 더 높은 메모리 대역폭 성능에 대한 중요한 필요를 해결하기 위한 최첨단 기술을 통합한 새로운 시스템을 설계하는 작업을 맡았습니다. 이러한 시스템의 핵심 설계 원칙은 세 가지 구성 시스템을 중심으로 했습니다. "우리는 코드, 일반 용도, 대용량 메모리 요구 사항에 맞는 높은 메모리 대역폭을 갖춘 멀티 코어 처리 성능에 중점을 두고, 3세대 전부터 세 가지 구성 시스템을 시작했습니다."라고 Fukazawa 교수는 말합니다.
그림 1. ACCMS 3가지 구성 시스템.
그는 이 전략 뒤에 숨어있는 목표에 대해 더 자세히 설명합니다. "3가지 시스템 유형(그림 1)인 시스템 A(Camphor 3), 시스템 B(Laurel 3), 시스템 C(Cinnamon 3) 중에서 대부분의 사용자가 주로 사용하는 것은 Camphor 3입니다. 이러한 사용자는 주로 과학 컴퓨팅용 맞춤 응용 프로그램을 사용하는 연구에 참여합니다. 실제로 많은 사용자는 이 기간에 만든 응용 프로그램을 원래 형태 그대로 사용하는 것을 선호합니다. 본질적으로 Camphor 3에서 실행되는 응용 프로그램의 80% 이상이 높은 B/F 값을 필요로 합니다. 따라서 이러한 요구 사항을 충족할 수 있는 CPU가 필요했습니다."
인텔® 제온® 프로세서의 성능을 최대한 활용하여 최적의 성능 실현하기
Fukazawa 교수와 그의 팀은 새 설계를 도출하고자 최신 기술을 연구하고 최신 인텔 제온 CPU Max 시리즈의 벤치마크를 실행했습니다. 인텔® 제온® 프로세서는 특히 CPU 성능에서 최상의 가치를 제공하기 때문에 이는 매우 중요했습니다. 인텔 제온 CPU Max 시리즈는 HBM(고대역 메모리)로 인텔® 제온® 스케일러블 프로세서를 강화하며 모델링, 인공 지능, 딥 러닝, HPC(고성능 컴퓨팅), 데이터 분석과 같은 데이터 집약적 워크로드에서 성능을 구현하고 검색 속도를 높이도록 설계되었습니다.
인텔 제온 CPU Max 시리즈는 컴파일러, 수학 라이브러리, 오픈 소스 응용 프로그램 등 다양한 소프트웨어 생태계를 활용하도록 최적화되어 있습니다. 인텔 제온 CPU Max 시리즈의 또 다른 주요 이점은 원활한 경험을 제공하고 다양한 워크로드에서 최고의 성능을 지원한다는 것입니다. 인텔 제온 CPU Max 시리즈 기반 시스템은 성능 이점 외에도 전반적인 성능을 향상하고 연구 과정을 가속하는 HBM 지원을 제공합니다. 연구원이 코딩과 최적화에 많은 시간을 할애할 필요 없이 실제 연구에 집중할 수 있다는 의미입니다.
Fukazawa 교수는 인텔 제온 CPU Max 시리즈를 선택한 이유를 설명하면서 "교토 대학 시스템은 높은 B/F 값, DDR5를 갖춘 x86 CPU, 대용량 메모리 x86 시스템과 같은 응용 프로그램을 위한 사용자 친화적인 CPU가 필요했습니다. 저희 연구 결과에 따르면, 요건에 맞는 CPU는 인텔 외에는 없었습니다." "또한, 시스템을 갱신할 때 가능한 가장 높은 B/F 값을 가진 구성을 선택하는 것이 필수적이었습니다. HBM 메모리를 갖춘 CPU를 선택해야 했고, 그 시점에, 필연적으로 인텔 제온 CPU Max 시리즈와 다른 CPU 둘 중에서 선택할 수밖에 없었습니다. 하지만, 컴퓨팅 성능을 고려했을 때에는 다른 CPU 옵션을 사용한다고 하더라도 컴퓨팅 성능이 인텔 제온 CPU Max의 약 절반에 불가할 것이므로, 요구 사항에 적합한 것은 제온 CPU Max였습니다."
"반면, Laurel 3은 Camphor 3만큼 높은 B/F 값이 필요하지 않지만, 여전히 더 넓은 메모리 대역폭의 필요성을 강조하는 일련의 의견들이 있었습니다. 따라서 DDR5를 사용할 가능성을 고려하기 시작했지만, 당시 DDR5를 공식적으로 지원하고 필요한 성능에 맞는 CPU 옵션이 거의 없었기 때문에, 여러 후보를 벤치마킹하여 결과를 찾았습니다. 결국, 조달 시기와 기타 요소를 고려하여 4세대 인텔 제온 스케일러블 프로세서를 선택했습니다." Fukazawa 교수가 덧붙입니다.
그림 2. Camphor SPR+HBM과 KNL 시스템 비교.
영향력이 큰 결과 제공
새 시스템을 배포하면서 교토 대학교는 지대한 성능 향상을 목격하기 시작했습니다. Fukazawa 교수에 따르면, "이전 세대 시스템과 비교했을 때, Camphor 3은 이미 4.7배의 평균 속도 향상을 달성했으며,1 Laurel 3은 3.7배의 평균 속도 향상을 달성했습니다."1 (그림 2 및 3)
그림 3. Laurel SPR+DDR과 Broadwell 시스템 비교
Fukazawa 교수는 인텔 제온 CPU Max 시리즈가 이러한 성능 이점을 주도하는 데 어떻게 핵심적인 역할을 했는지 강조하면서 이렇게 말합니다. "센터에서는 프로그램 코딩 지원 공동 연구를 수행하고 있습니다. 사용자 코드를 받고 약 1년이 넘는 기간 동안 최적화한 다음 사용자에게 돌려주는 일입니다. 인텔 제온 Phi 프로세서의 경우, 성능을 발휘하게 하려면 종종 응용 프로그램을 그에 맞게 최적화해야 합니다. 그러나 인텔 제온 CPU Max 시리즈의 경우, 인텔의 컴파일러 및 수학 커널 라이브러리를 그대로 사용하면, 특별한 최적화 없이도 쉽게 성능을 끌어낼 수 있습니다."
이 부분을 더 강조하기 위해, Fukazawa 교수는 인텔 제온 CPU Max 시리즈가 연구 및 개발의 진전에 어떤 중요한 역할을 하는지 몇 가지 사례를 듭니다. "최근에 수행한 프로젝트 중 하나에서, 3D MHD 시뮬레이션으로 전 세계 목성 자기권을 해결하는 응용 프로그램을 작업 중이었습니다. B/F 값이 높은 응용 프로그램이고, 자기권의 규모가 거대하고 그리드 간격이 작기 때문에 시간 진화를 관찰하는 데 1년 이상이 걸립니다. 하지만, 인텔 제온 CPU Max 시리즈를 사용한 덕분에 2배 이상의 속도로 결과를 얻을 수 있었습니다. 다른 사례는 다양한 매개변수로 시뮬레이션을 실행하여 지구 온난화의 영향을 연구하는 데 사용되는 GCM(일반순환모델)입니다. GCM 역시 B/F이 높은 응용 프로그램으로, 연구원은 인텔 제온 CPU Max 시리즈의 이점을 누릴 수 있습니다. 이 응용 프로그램은 여러 매개변수를 통한 시뮬레이션을 지원하고, 지구 온난화를 완화할 수 있는 매개변수를 식별할 수 있습니다."
다가올 미래를 위한 준비
교토 대학교의 ACCMS는 학문적 우수성과 혁신의 등대 역할을 하며, 일본의 첨단 연구 분야에서 선도자로서 길을 개척하려고 노력합니다. ACCMS는 끊임없이 지식과 혁신을 추구하며 다양한 분야에서 영향력 있는 학술 연구를 지속할 준비가 되어 있습니다.
글로벌 기술 리더인 인텔은 ACCMS의 이러한 노력에 발맞추어 중요한 역할을 수행할 위치에 있습니다. ACCMS로 견고한 기술 지원을 넓힘으로써, 인텔은 학술 연구의 영향을 확대하고, 과학, 기술 및 다양한 분야에서 새로운 개척을 가능하도록 하는 것을 목표합니다. 이러한 협업 노력은 교토 대학교의 학문적 발전을 위한 노력뿐만 아니라, 일본 내외의 다양한 분야의 전반적인 개발과 발전에 기여하기 위한 보다 광범위한 노력을 의미합니다. 이 협업을 통해 인텔은 여러 영역에서 혁신 발전, 혁신 촉진, 학술 연구의 미래를 형성하는 촉매제가 되기 위해 노력하고 있습니다.
이 협력을 더욱 추진하고 교토 대학교가 설정한 이정표를 달성해야 한다는 점을 거듭 강조하면서, 인텔 일본의 산업 사업부의 HPC 비즈니스 개발 책임자인 Katsumi Yazawa는 "HPC 시장에서 B/F 가치가 중요하다는 것을 충분히 이해하고 있습니다. 하지만, HBM을 구현하고 높은 메모리 대역폭을 달성하는 솔루션은 필연적으로 비용이 많이 듭니다. 따라서 인텔에서는 요구 사항을 이해하고 다양한 메모리 신기술을 고려하고 있습니다. 인텔은 머지 않아 DDR과 폼 팩터가 동일하지만, 메모리 대역폭을 거의 두 배로 늘릴 수 있는 MCR-DIMM을 제공하여 B/F 값을 향상하기를 희망합니다. 교토 대학교의 믿음직한 자문기관으로서, 인텔은 협력을 강화하고, 장기적인 관계에서 HPC/AI의 HBM 솔루션 요구 사항을 충족하는 로드맵을 제공하기를 항상 기대합니다."