QA의 테스트 이야기

RAGAS관련 내용 모음

AI
2025. 4. 19. 11:11

RAGAS에 대한 내용이나

검증한 사례등을 모아놓은 페이지입니다.

 

 

RAGAS란?

RAGAS(Retrieval Augmented Generation Assessment)는 검색 증강 생성(RAG) 파이프라인의 성능을 평가하기 위한 참조 자료가 필요 없는(reference-free) 프레임워크입니다. 다시 말해, 인간이 직접 작성한 정답(ground truth annotations) 없이도 RAG 시스템의 다양한 측면을 자동으로 측정할 수 있도록 설계되었습니다.

RAG 시스템은 일반적으로 사용자 질문과 관련된 문맥 정보를 검색하는 검색(retrieval) 모듈과, 검색된 정보를 바탕으로 답변을 생성하는 생성(generation) 모듈로 구성됩니다. RAGAS는 이러한 각 모듈과 전체 파이프라인의 성능을 평가하는 데 필요한 다양한 메트릭을 제공합니다.

RAGAS의 주요 특징 및 중요성:

  • 자동 평가: 인간의 개입 없이 자동으로 RAG 파이프라인을 평가하여 시간과 노력을 절약하고 평가 과정을 효율화합니다.
  • 참조 자료 불필요: 학습 데이터나 사람이 직접 작성한 정답 없이 평가가 가능하여 실제 적용 환경에서 유용합니다.
  • 다양한 평가 측면: 검색된 문맥의 관련성, 답변의 충실성 및 관련성, 문맥 활용도 등 RAG 시스템의 여러 중요한 측면을 측정할 수 있는 다양한 메트릭을 제공합니다.
  • 빠른 개발 주기: 자동화된 평가를 통해 RAG 시스템의 성능 변화를 신속하게 파악하고 개선하여 개발 주기를 단축하는 데 기여합니다.
  • 오픈 소스: 공개된 프레임워크로서 누구나 쉽게 접근하고 활용하며, 필요에 따라 커스터마이징할 수 있습니다.

RAGAS의 주요 평가 메트릭:

RAGAS는 RAG 파이프라인의 검색 및 생성 단계를 평가하기 위해 다음과 같은 주요 메트릭을 제공합니다.

검색(Retrieval) 관련 메트릭:

  • Context Precision (문맥 정확도): 검색된 문맥 중에서 실제 답변 생성에 도움이 되는 관련 있는 정보가 얼마나 포함되어 있는지 측정합니다.
  • Context Recall (문맥 재현율): 질문에 대한 정답을 생성하는 데 필요한 모든 관련 정보가 검색된 문맥에 포함되어 있는지 측정합니다.
  • Context Utilization (문맥 활용도): 검색된 문맥 정보가 답변 생성 시 얼마나 활용되었는지 측정합니다.
  • Context Entities Recall (문맥 개체 재현율): 검색된 문맥이 질문과 관련된 중요한 개체(예: 인물, 장소, 조직)를 얼마나 잘 포함하고 있는지 측정합니다.
  • Noise Sensitivity (잡음 민감도): 검색된 문맥에 노이즈(질문과 관련 없는 정보)가 얼마나 영향을 미치는지 측정합니다.

생성(Generation) 관련 메트릭:

  • Faithfulness (충실성): 생성된 답변이 검색된 문맥에 기반하여 얼마나 사실적으로 답변되었는지 측정합니다. 답변이 문맥과 모순되거나 문맥에서 확인할 수 없는 내용을 포함하는지 여부를 평가합니다.
  • Answer Relevancy (답변 관련성): 생성된 답변이 주어진 질문에 얼마나 적절하고 관련성이 높은지 측정합니다.
  • Answer Semantic Similarity (답변 의미 유사성): 생성된 답변과 이상적인 답변(ground truth가 있는 경우 활용 가능) 간의 의미적 유사성을 측정합니다.
  • Answer Correctness (답변 정확성): 생성된 답변이 사실적으로 정확한지 평가합니다. (이 메트릭은 일반적으로 ground truth를 필요로 할 수 있습니다.)
  • Aspect Critique (측면 비판): 답변의 특정 측면(예: 명확성, 간결성)에 대한 품질을 평가합니다.
  • Summarization Score (요약 점수): 검색된 문맥을 기반으로 답변이 얼마나 잘 요약되었는지 평가합니다.

 


RAG 성능 평가하기 - RAG Evaluation을 위한 RAGAS 라이브러리 소개

 

'AI' 카테고리의 다른 글

AI관련 활용사례모음  (0) 2025.04.11
AI검증 모음  (0) 2025.04.11

공유하기

facebook twitter kakaoTalk kakaostory naver band