멀리 있는 벽에 투영된 밝은 파란색 데이터 포인트를 바라보며 일렬로 늘어선 서버 끝에 사람이 서 있습니다

인텔® Advanced Matrix Extensions(인텔® AMX)란?

최신 세대 인텔® 제온® 스케일러블 프로세서에 통합된 이 가속기로 AI 기능을 확장, 단순화 및 가속화하여 딥 러닝 워크로드에 대한 컴퓨팅 요구 사항을 충족하십시오.1

핵심 요점

  • 인텔® AMX는 최신 세대의 인텔® 제온® 스케일러블 프로세서에서 사용할 수 있는 인텔® AI Engines의 일부입니다.

  • 인텔® AMX는 딥 러닝 교육과 추론 워크로드를 가속화하고 추가적인 특수 하드웨어의 필요성을 최소화합니다.

  • 인텔® 개발자 도구와 지원 리소스가 인텔® AMX를 더 쉽게 활용할 수 있도록 도와줍니다.

author-image

기준

인텔® 제온® 스케일러블 프로세서 및 인텔® Advanced Matrix Extensions

생성형 AI, 대규모 언어 모델(LLM), 컴퓨터 비전에 의존하는 딥 러닝 워크로드는 매우 컴퓨팅 집약적일 수 있으며, 성공적인 AI 배포를 위해 높은 수준의 성능과 추가적인 특수 하드웨어를 필요로 하는 경우가 많습니다. 이러한 요구 사항과 연관된 비용은 빠르게 증가할 수 있으며, 별도의 하드웨어 솔루션을 추가하는 경우 불필요하게 복잡성이 증가하고 호환성 문제가 발생할 수 있습니다.

딥 러닝 워크로드의 효율성과 비용 효과성을 높이고 교육 및 배포를 보다 쉽게 할 수 있도록 지원하는 인텔® 제온® 스케일러블 프로세서의 인텔® AMX는 특수 하드웨어의 필요성을 최소화하면서도 추론 및 교육을 가속화합니다.

인텔® AMX는 인텔® 제온® 스케일러블 프로세서에 통합된 두 인텔® AI Engines 중 하나로, CPU를 최대한 활용하여 대규모 AI 훈련 및 추론 워크로드를 지원하여 효율성 향상, 추론, 훈련, 배포 비용 축소, 총 소유 비용(TCO) 절감 등의 이점을 제공합니다. 각 CPU 코어에 상주하고 시스템 메모리 근처에 배치되는 내장 가속기인 Intel® AMX는 종종 개별 가속기보다 사용하기가 덜 복잡하여 가치 창출 시간이 더 빠릅니다.

조직이 고급 AI 워크로드를 지원할 수 있는 방법은 다양하지만, 강력한 통합 AI 가속기를 갖춘 인텔® 제온® 스케일러블 프로세서 기반의 토대를 구축하면 교육 및 추론 성능 목표를 달성하는 동시에 시스템 복잡성과 배포 및 운영 비용을 줄여 비즈니스 수익을 높이는 데 도움이 될 수 있습니다.

인텔® AMX의 작동 방식

인텔® AMX는 인텔® 제온® 스케일러블 프로세서 코어에 존재하는 전용 하드웨어 블록으로, 매트릭스 연산을 사용하는 딥 러닝 교육 및 추론 워크로드를 최적화하고 가속화하는 데 도움이 됩니다.

인텔® AMX를 사용하면 AI 워크로드를 개별 가속기에 오프로드하지 않고 CPU에서 실행할 수 있으므로 성능이 크게 향상됩니다.2 AMX의 아키텍처는 BF16(훈련/추론)과 int8(추론) 데이터 유형을 지원하며 다음과 같은 두 가지 주요 구성 요소를 포함합니다.

  • 타일: 타일은 다량의 데이터를 저장하는 각 1킬로바이트 크기의 2차원 레지스터 8개로 구성됩니다.
  • 타일 매트릭스 곱셈(TMUL): TMUL은 AI를 위해 매트릭스 곱셈 계산을 수행하는 타일에 연결된 가속기 엔진입니다.

이 구성 요소들을 함께 사용하면 인텔® AMX가 각 코어에 더 많은 데이터를 저장하고 단일 작업으로 더 큰 행렬을 계산할 수 있습니다. 또한 인텔® AMX는 완전한 확장성을 제공하도록 설계되었습니다.

더 나은 비즈니스 성과를 위한 인텔® AMX의 이점

인텔® AMX를 사용하면 인텔® 제온® 스케일러블 프로세서가 AI 적용 사례 중 가장 두드러진 CPU 사용 사례인 추론과 더 많은 교육 기능의 균형을 달성하여 딥 러닝 교육 및 추론 워크로드의 성능을 높일 수 있습니다.

많은 인텔 고객들은 인텔® AMX를 이용해 조직에서 더 나은 결과를 얻고 있습니다. 고객이 5세대 인텔® 제온® 프로세서를 사용할 경우, 3세대 인텔® 제온® 프로세서 대비 최대 14배 향상된 훈련 및 추론을 경험할 수 있습니다.3

인텔® AMX의 주요 이점은 다음과 같습니다.

  • 개선된 성능
    CPU 기반 가속화는 전력 및 리소스 사용 효율을 개선하여 동일한 가격으로 더 나은 성능을 제공합니다.
    예를 들어, 인텔® AMX BF16이 탑재된 5세대 인텔® 제온® Platinum 8592+는 FP32가 탑재된 3세대 인텔® 제온® 프로세서 대비, 실시간 음성 인식 추론 성능(RNN-T)이 최대 10.7배, 와트당 성능이 최대 7.9배 더 높은 것으로 나타났습니다.4
  • 총 소유 비용(TCO) 절감
    인텔® AMX가 탑재된 인텔® 제온® 스케일러블 프로세서는 비용 및 TCO를 낮추고 지속 가능성 목표를 달성하는 데 도움이 되는 다양한 효율성 개선을 지원합니다.
    이미 소유하고 있을 수도 있는 인텔® 제온® 스케일러블 프로세서의 통합 가속기인 인텔® AMX를 사용하면 이전 투자를 극대화하고 CPU에서 더 많은 혜택을 끌어내고 별도의 가속기를 추가할 때 일반적으로 발생하는 비용과 복잡성을 없앨 수 있습니다.
    또한, 인텔® AMX를 탑재한 인텔® 제온® 스케일러블 프로세서는 다른 사용 가능한 옵션 대비 더 비용 효율적인 서버 아키텍처를 제공하므로 전력 및 방출 감소 이점을 모두 누릴 수 있습니다.
    AMD Genoa 9654 서버와 비교했을 때, 인텔® AMX가 탑재된 5세대 인텔® 제온® Platinum 프로세서는 최대 2.69배 더 높은 배치 자연어 처리 추론(BERT-Large) 성능 및 최대 2.96배 더 높은 와트당 성능을 제공했습니다.5
  • 개발 시간 단축
    딥 러닝 응용 프로그램 개발 과정을 단순화하기 위해 인텔은 TensorFlow 및 PyTorch 프로젝트를 포함한 오픈 소스 커뮤니티와 긴밀히 협력하여 Intel® 하드웨어용 프레임워크를 최적화하고 개발자가 즉시 사용할 수 있도록 최신 최적화 및 기능을 업스트리밍합니다. 이를 통해 몇 줄의 코드만 추가해도 인텔® AMX의 성능 이점을 활용할 수 있어 전체 개발 시간이 단축됩니다.
    인텔은 또한 무료 인텔® 개발 도구, 라이브러리 및 리소스에 대한 액세스를 제공합니다.

인텔® AMX 딥 러닝 사용 사례

인텔® AMX를 광범위한 딥 러닝 사용 사례에 배포하면 상당한 성능 향상을 달성하고, 이를 통해 최종 사용자 및 비즈니스 가치를 높일 수 있습니다.

  • 추천 시스템: 전자상거래, 소셜 미디어, 스트리밍 엔터테인먼트, 맞춤형 뱅킹 등의 사용 사례에서 제품, 콘텐츠, 서비스의 추천 응답성을 향상시키는 AI 추천 모델을 위해 보다 비용 효율적인 솔루션인 인텔® AMX를 사용해 보십시오. 예를 들어, 콘텐츠 제공업체는 인텔® AMX를 사용하여 맞춤화된 영화 또는 책 추천 및 광고의 전송을 가속화하거나 실시간 사용자 행동 신호와 시간 및 위치와 같은 컨텍스트 속성을 거의 실시간으로 반영하는 딥 러닝 기반 추천 시스템을 제공하는 경우가 많습니다. 5세대 인텔® 제온® 프로세서는 FP32가 탑재된 3세대 인텔® 제온® 프로세서 대비 최대 8.7배 더 높은 배치 추천 시스템 추론 성능(DLRM)과 최대 6.2배 더 높은 와트당 성능을 제공합니다.6
  • 자연어 처리(NLP): 임상 기록에서 인사이트를 추출하거나 대량의 의료 데이터를 처리하여 건강 문제의 조기 발견을 지원하고 의료 서비스를 개선하기 위해 의료 및 생명과학 분야에서 사용하는 것과 같은 NLP 응용 프로그램을 지원하고 확장할 수 있도록 텍스트 기반 사용 사례를 가속화하십시오. 금융 서비스에 인텔® AMX를 사용하면 온라인 챗봇 응답성을 개선하여 고객에게 필요한 정보를 더 빠르게 제공하는 동시에 제한된 수의 직원이 더 복잡한 요청에 대처할 수 있도록 지원할 수 있습니다.
    추천 시스템의 비용 절감 혜택과 마찬가지로 인텔® AMX는 NLP를 위한 더 비용 효율적인 솔루션이 될 수 있습니다. 예를 들어, BERT-Large AI 자연어 모델을 배포하는 데 사용되는 경우 4세대 인텔® 제온® 프로세서의 인텔® AMX는 AMD Genoa 9354 대비 최대 79%의 절감 효과를 제공했습니다.7
  • 생성형 AI: 인텔® AMX를 활용하여 콘텐츠 생성(이미지, 비디오, 오디오, 언어 번역, 데이터 증강, 요약 포함)과 같은 생성형 AI 사용 사례에서 딥 러닝 교육 및 추론 워크로드의 성능을 가속화하십시오. 예를 들어, BF16 데이터 유형용 인텔® AMX 탑재 인텔® 제온® Platinum 8480+ 프로세서를 FP32 데이타 유형용 인텔® 제온® Platinum 8380 프로세서와 비교한 성능 평가에서, Stable Diffusion 텍스트에서 이미지 생성 시간이 5초 이내로 단축되고 Stable Diffusion 모델의 미세 조정 시간이 5분 이내로 단축되었습니다.8
  • 컴퓨터 비전: 비디오 및 이미지 캡처에서 인사이트 및 조치를 도출하는 시간을 줄여 탁월한 고객 경험을 제공하고 기업이 효율성을 개선하고 운영 비용을 절감하는 데 도움이 됩니다. 예를 들어, 소매점에서 인텔® AMX는 컴퓨터 비전 기반의 마찰 없는 계산대를 사용하여 고객의 거래 시간을 최소화하고, 거의 실시간으로 선반을 모니터링하여 재고 데이터를 추적하고 물품 재고가 없을 때 직원에게 즉시 알릴 수 있습니다. 제조 분야에서는 로봇 팔의 컴퓨터 비전 카메라에서 촬영된 비디오의 분석을 가속화하면 결함 탐지의 자동화와 함께 시간과 비용을 단축할 수 있습니다.

추가 예시를 통해 인텔® 고객들이 어떻게 인텔® AMX를 사용하여 더 나은 비즈니스 성과를 창출하고 있는지 알아보려면 고객 스포트라이트 라이브러리를 방문하십시오.

인텔® AMX 시작하기

인텔은 인텔® 제온® 스케일러블 프로세서에 통합된 인텔® AMX 가속기를 활용할 수 있도록 다양한 개발 리소스를 제공합니다.

시작하려면 다음 가이드에서 인텔® AMX로 성능 향상시키기 단계별 지침을 검토하십시오.

더 자세한 기술 정보, 튜토리얼, 코드 예제, 테스팅 모듈을 알아보려면 다음에 액세스해 주십시오.

개발자 소프트웨어 도구 카탈로그에서 인텔® 제온® 스케일러블 프로세서를 위한 모든 조정 가이드에 액세스할 수 있습니다.

인텔은 AI 개발 작업을 간소화할 수 있도록 다음과 같은 인텔® oneAPI 툴킷, 구성 요소, 최적화를 제공합니다.

지금 인텔® AMX 체험해 보기

인텔의 참조 자료를 검토하는 것 외에도 인텔® Developer Cloud를 사용하여 인텔® 하드웨어, 인텔® AMX 및 기타 통합 가속화 기능을 시험해 볼 수 있습니다.

학습, 프로토타이핑, 테스트, 워크로드 실행을 할 수 있는 이 무료 온라인 플랫폼은 다양한 인텔® 소프트웨어 개발 툴킷, 도구, 라이브러리에 대한 지원 또한 제공합니다.

인텔® AMX 탑재 CPU를 통한 AI 기능 확장 및 향상

조직이 딥 러닝 교육 및 추론 워크로드를 지원하기 위해 점점 증가하는 컴퓨팅 요구 사항을 충족시킬 수 있는 솔루션을 찾고 있다면, 인텔® AMX가 추가적인 특수 하드웨어 관련 비용 및 복잡성 없이 그리고 상대적으로 더 짧은 개발 시간 안에 이미 보유하고 있는 인텔® 하드웨어를 사용하여 성능을 높이는 데 도움이 될 수 있습니다. 또한, 인기 있는 오픈 소스 프레임워크의 인텔® 최적화를 사용하고 무료 인텔® 개발 도구 및 리소스에 액세스할 수 있습니다.