RAG과 생성형 AI의 성공 가속화하기
챗봇과 같은 대규모 언어 모델(LLM) 응용 프로그램들이 산업 전반에서 강력한 이점을 제공하고 있습니다. 조직들은 LLM을 사용하여 운영 비용을 절감하고, 직원 생산성을 높이고, 보다 개인화된 고객 경험을 제공합니다.
귀사처럼 조직들이 이 혁신적인 기술을 경쟁 우위로 전환하려 뛰어들 때, 상당수는 먼저 모델이 비즈니스에 특화된 AI 결과를 제공할 수 있도록 조직의 데이터에 기성 LLM을 맞춤화해야 할 것입니다. 그러나 모델의 파인 튜닝에 필요한 비용 및 시간 투자는 잠재적 혁신가들에게 걸림돌이 될 상당한 규모의 장애물을 만들 수 있습니다.
이러한 장벽을 극복할 수 있도록 검색 증강 생성(RAG)은 LLM 맞춤화를 위한 보다 비용 효율적인 접근 방식을 제공합니다. RAG는 모델이 파인 튜닝 없이도 사유 데이터를 토대로 할 수 있도록 함으로써, 비즈니스 또는 고객에게 맞춤화된 LLM 응용 프로그램을 빠르게 선보이도록 지원합니다. 재훈련 또는 파인 튜닝을 요구하는 대신 RAG 접근 방식은 조직의 고유한 사유 데이터를 기반으로 구축된, 엄선된 외부 지식 베이스에 기성 LLM을 연결할 수 있습니다. 이 지식 베이스는 조직 고유의 콘텍스트 및 정보를 제공하여 모델의 결과를 조정합니다.
이 문서에서는 하드웨어 및 소프트웨어 기반의 선택에서부터 지식 베이스의 구축 그리고 프로덕션에서의 응용 프로그램 최적화에 이르기까지 RAG 구현의 핵심 요소를 구축하는 방법에 대해 알아봅니다. 또한 파이프라인의 각 단계에서 성능과 효율성을 극대화하는 데 도움이 될 수 있는 도구와 리소스를 공유합니다.
RAG는 어떤 경우에 적절한 접근 방식입니까?
파이프라인 구성요소를 평가하기 전에 먼저 RAG과 파인 튜닝 중 어느 것이 LLM 응용 프로그램에 더 적합한지를 따져보는 것이 중요합니다.
두 접근 방식 모두 파운데이션 LLM으로 시작하므로, 처음부터 모델을 훈련하는 것보다 사용자 지정 LLM을 향한 더 짧은 경로를 제공합니다. 파운데이션 모델은 사전 훈련되어 대규모 데이터 세트, 데이터 전문가팀 또는 훈련을 위한 추가 컴퓨팅 성능에 액세스할 필요가 없습니다.
그러나 파운데이션 모델을 선택한 후에는 이를 비즈니스에 사용자 지정해야 모델이 과제 및 요구 사항을 해결하는 결과를 제공할 수 있습니다. 파인 튜닝에 투자할 시간이나 자금이 없다면 RAG가 LLM 응용 프로그램을 위한 훌륭한 선택일 수 있습니다. 또한 RAG는 환각의 위험을 줄이고, 출력의 출처를 제공하여 설명 가능성을 개선할 수 있으며, 민감한 정보를 사설 데이터베이스에 안전하게 보관할 수 있기 때문에 보안 이점을 제공합니다.
성능과 보안을 우선시하는 하드웨어 선택하기
RAG 파이프라인에는 여러 컴퓨팅 집약적인 구성 요소가 포함되지만, 최종 사용자는 저지연 응답을 기대합니다. 이 때문에 파이프라인을 처음부터 끝까지 지원하려 할 때 내리는 가장 중요한 결정 중 하나가 컴퓨팅 플랫폼을 선택하는 것입니다.
인텔® 제온® 프로세서를 사용하면 단일 플랫폼에서 전체 RAG 파이프라인을 지원하고 관리할 수 있어 개발, 배포 및 유지 관리가 간소화됩니다. 인텔® 제온® 프로세서에는 통합 AI 엔진이 포함되어 있어 추가 하드웨어 없이도 CPU에서 데이터 수집, 검색, AI 추론을 비롯한 파이프라인 전반의 주요 작업을 가속화할 수 있습니다.
가장 높은 처리량 또는 가장 낮은 대기 시간이 요구되는 RAG 응용 프로그램의 경우, 인텔® Gaudi® AI 가속기를 통합하여 고급 성능에 대한 수요를 비용 효율적으로 충족할 수 있습니다. 인텔® Gaudi® 가속기는 추론을 가속화하도록 특별히 제작되어 CPU 및 기타 가속기 대신 RAG 추론에 사용될 수도 있습니다.
조직은 기밀 데이터로 작업할 때 RAG를 자주 사용하므로 개발 및 프로덕션 단계에서 파이프라인을 보호하는 것이 무엇보다 중요합니다. 인텔® 제온® 프로세서는 내장 보안 기술인 인텔® Software Guard Extensions(인텔® SGX) 및 인텔® Trust Domain Extensions(인텔® TDX)를 사용하므로 기밀 컴퓨팅 및 데이터 암호화를 통해 파이프라인 전반에서 안전한 AI 처리를 지원합니다.
배포한 후에는 최종 사용자 수요의 증가로 인해 응용 프로그램이 길어진 대기 시간을 경험할 수 있습니다. 인텔® 하드웨어는 확장성이 뛰어나기 때문에 인프라 리소스를 빠르게 추가하여 증가하는 사용량을 충족할 수 있습니다. 또한 최적화를 통합하여 데이터 벡터화, 벡터 검색, LLM 추론과 같은 파이프라인 전반의 주요 작업을 지원할 수도 있습니다.
인텔® Tiber™ 개발자 클라우드를 통해 인텔® 제온® 및 인텔® Gaudi® AI 프로세서에서 RAG 성능을 테스트해 볼 수 있습니다.
RAG 프레임워크를 사용하여 AI 툴체인을 쉽게 통합하기
많은 구성 요소를 연결하기 위해 RAG 파이프라인은 데이터 수집, 벡터 데이터베이스, LLM 등을 위한 여러 AI 툴체인을 결합합니다.
RAG 응용 프로그램을 개발하기 시작할 때 LangChain, 인텔 랩의 fastRAG, LlamaIndex와 같은 통합 RAG 프레임워크는 개발을 간소화할 수 있습니다. RAG 프레임워크는 파이프라인 전반에서 AI 툴체인을 원활하게 통합하기 위한 API와 더불어 실제 사용 사례를 위한 템플릿 기반 솔루션을 제공하는 경우가 많습니다.
인텔은 인텔® 하드웨어에서 전반적인 파이프라인 성능을 극대화하는 데 도움이 되는 최적화를 제공합니다. 예를 들어, fastRAG는 인텔® Extension for PyTorch 및 Optimum Habana를 통합하여 인텔® 제온® 프로세서 및 인텔® Gaudi® AI 가속기에서 RAG 응용 프로그램을 최적화합니다.
또한 인텔은 인텔® 하드웨어에서의 성능을 향상하기 위해 LangChain에 최적화를 제공해 왔습니다. LangChain과 인텔® Gaudi® 2 AI 가속기를 사용하여 이 워크플로를 얼마나 쉽게 설정할 수 있는지 알아보십시오.
지식 베이스 구축하기
RAG를 통해 조직은 비즈니스 및 고객에 대한 중요한 사유 정보를 LLM에 전달할 수 있습니다. 이러한 데이터는 직접 구축할 수 있는 벡터 데이터베이스에 저장됩니다.
정보 소스 식별하기
RAG를 사용하여 조직에 대한 직원의 질문에 답할 수 있는 AI 개인 도우미를 배포한다고 상상해 보십시오. 제품 정보, 회사 정책, 고객 데이터, 부서별 프로토콜과 같은 핵심 데이터를 LLM에 제공할 수 있습니다. 직원은 RAG 기반 챗봇에 질문하고 조직에 특화된 답변을 얻을 수 있으므로, 작업을 더 빠르게 완료하고 전략적 사고에 집중할 수 있습니다.
물론, 지식 베이스는 산업 및 응용 사례에 따라 다릅니다. 제약회사는 테스트 결과 및 환자 기록 아카이브를 사용하고자 할 수 있습니다. 제조업체는 잠재적 장비 문제를 조기에 감지할 수 있도록 RAG 기반 로봇 암에 장비 사양과 과거 성능 데이터를 제공할 수 있습니다. 금융기관은 챗봇이 개인화된 금융 조언을 제공할 수 있도록 LLM을 사유 금융 전략 및 실시간 시장 트렌드에 연결하고자 할 수 있습니다.
궁극적으로, 지식 베이스를 구축하려면 LLM이 액세스하기를 원하는 중요한 데이터를 수집해야 합니다. 이러한 데이터는 PDF, 비디오 트랜스크립트, 이메일, 프레젠테이션 슬라이드를 비롯한 다양한 텍스트 기반 소스뿐만 아니라 위키백과 페이지, 스프레드시트와 같은 소스의 표 데이터에서도 가져올 수 있습니다. 또한 RAG는 여러 AI 모델을 결합하여 사운드, 이미지, 비디오 등 다양한 유형의 데이터를 처리하는 멀티모달 AI 솔루션도 지원합니다.
예를 들어, 소매업체는 멀티모달 RAG 솔루션을 사용하여 주요 이벤트를 위해 빠르게 감시 카메라 영상을 검색할 수 있습니다. 즉, 소매업체는 비디오 데이터베이스를 만들고 "주머니에 무언가를 집어넣는 남성"과 같은 텍스트 프롬프트를 사용하여 수백 시간의 비디오를 수동으로 검색하지 않고도 관련 클립을 식별할 수 있습니다.
데이터 준비하기
데이터를 효율적으로 처리할 수 있도록 준비하려면 먼저 데이터를 정제해야 합니다. 예를 들어, 중복 정보와 노이즈를 제거하고 관리 가능한 청크로 분할하는 것입니다. 여기에서 데이터 정제에 대한 더 많은 도움말을 읽을 수 있습니다.
다음으로, 데이터를 벡터로 변환하거나 모델이 더 광범위한 콘텍스트를 이해하도록 돕는 텍스트의 수학적 표현으로 변환하기 위해 임베딩 모델이라는 AI 프레임워크를 사용해야 합니다. 임베딩 모델은 타사에서 다운로드할 수 있으며(예: Hugging Face의 오픈 소스 임베딩 모델 리더보드에 소개된 것), Hugging Face API를 통해 RAG 프레임워크에 원활하게 통합할 수 있는 경우가 많습니다. 벡터화 후에는 모델이 효율적으로 검색할 수 있도록 데이터를 벡터 데이터베이스에 저장할 수 있습니다.
데이터의 양과 복잡성에 따라 데이터 처리 및 임베딩 생성은 LLM 추론만큼 컴퓨팅 집약적일 수 있습니다. 인텔® 제온® 프로세서는 추가 하드웨어 없이도 CPU 기반 노드에서 모든 데이터 수집, 임베딩 및 벡터화를 효율적으로 처리할 수 있습니다.
또한, 인텔® 제온® 프로세서를 양자화된 임베딩 모델과 페어링하여 벡터화 프로세스를 최적화하면 비양자화 모델에 비해 인코딩 처리량을 최대 4배까지 높일 수 있습니다1.
쿼리 및 콘텍스트 검색 최적화하기
사용자가 RAG 기반 모델에 쿼리를 제출하면, 검색기 메커니즘은 관련 외부 데이터를 위해 지식 베이스를 검색하여 LLM의 최종 출력을 강화합니다. 이 프로세스는 가장 관련성이 높은 정보를 찾고 순위를 지정하기 위해 벡터 검색 작업에 의존합니다.
벡터 검색 작업은 인텔® 제온® 프로세서에서 고도로 최적화됩니다. 인텔® 제온® 프로세서에 내장된 인텔® Advanced Vector Extensions 512(인텔® AVX-512)는 벡터 검색의 주요 작업을 강화하고 명령어 수를 줄여 처리량과 성능을 크게 향상합니다.
인텔 랩의 Scalable Vector Search(SVS) 솔루션을 활용하여 벡터 데이터베이스 성능을 강화할 수도 있습니다. SVS는 인텔® 제온® CPU에서 벡터 검색 기능을 최적화하여 검색 시간 및 전반적인 파이프라인 성능을 개선합니다.
LLM 응답 생성 최적화하기
벡터 스토어에서 추가 데이터가 전달되면 LLM은 콘텍스트에 맞는 정확한 응답을 생성할 수 있습니다. 여기에는 일반적으로 RAG 파이프라인에서 가장 컴퓨팅 집약적인 단계인 LLM 추론이 포함됩니다.
인텔® 제온® 프로세서는 내장 AI 가속기인 인텔® Advanced Matrix Extensions(인텔® AMX)를 사용하여 보다 효율적인 행렬 연산과 향상된 메모리 관리를 지원하므로 추론 성능을 극대화하는 데 도움이 됩니다. 중대형 LLM의 경우, 인텔® Gaudi® AI 가속기를 사용하여 특별히 고안된 AI 성능 및 효율성으로 추론을 가속화하십시오.
인텔은 또한 하드웨어 리소스에서 LLM 추론을 극대화하는 데 도움이 되는 여러 최적화 라이브러리를 제공합니다. 인텔® oneAPI 라이브러리는 PyTorch 및 TensorFlow와 같은 인기 있는 AI 프레임워크를 위한 저수준 최적화를 제공하므로, 인텔® 하드웨어에 최적화된 익숙한 오픈 소스 도구를 사용할 수 있습니다. 인텔® Extension for PyTorch와 같은 확장 기능을 추가하여 양자화된 고급 추론 기법을 통해 전반적인 성능을 향상할 수도 있습니다.
프로덕션에 응용 프로그램을 적용한 후에는 최종 사용자의 수요에 부합하기 위해 최신 LLM으로 업그레이드하고 싶을 수 있습니다. RAG는 파인 튜닝을 요구하지 않으며 지식 베이스는 모델 외부에 위치하므로, RAG를 사용하면 새로운 모델로 LLM을 빠르게 교체하여 더 빠른 추론을 지원할 수 있습니다.
인텔을 통한 RAG 여정 가속화
RAG를 사용하면 파인 튜닝을 하지 않고도 사용자 지정 LLM 응용 프로그램을 빠르고 비용 효율적으로 배포할 수 있습니다. 적절한 구성 요소를 사용하면 단 몇 단계 만에 최적화된 RAG 파이프라인을 구축할 수 있습니다.
AI 이니셔티브를 추구할 때는 인텔® AI 포트폴리오를 활용하여 RAG 파이프라인의 각 단계를 강화하십시오. 인텔의 하드웨어 및 소프트웨어 솔루션은 성공을 가속화하도록 설계되었습니다.