벤치마크는 편하지만, 그대로 받아들이기는 어렵다.
LLM은 전례 없는 속도로 발전하며 인공지능 분야의 혁신을 주도하고 있다. ChatGPT, Gemini, Llama, 딥시크 등 LLM 개발 경쟁은 날로 치열해지고 있다. 이러한 경쟁 환경 속에서 새로운 모델과 업데이트 버전이 끊임없이 출시되고 있다. 사용자들은 가장 좋은 LLM을 찾기위해 노력하고 있고, 개발사들은 자사 모델의 우수성을 입증하고 싶어한다.
이처럼 치열한 경쟁 속에서 LLM의 성능을 객관적으로 측정하고 비교하는 기준의 중요성은 더욱 커지고 있다. 현재 LLM의 능력을 정량화하고 비교하는 사실상의 표준은 바로 '벤치마크(benchmark)'다. 벤치마크는 모델의 추론, 코딩, 언어 이해, 수학 문제 해결 등 다양한 능력을 평가하기 위한 표준화된 테스트 세트로, 연구자들에게는 기술 발전의 척도를 제공하고, 사용자에게는 특정 요구사항에 가장 적합한 모델을 선택하는 데 도움을 주는 도구로 인식된다.
그러나 벤치마크 시스템의 본질적인 문제점이 드러나면서 새로운 국면을 맞이하고 있다. 바로 LLM 개발사들이 자사 모델에 유리한 벤치마크 결과를 선별적으로 강조하고, 불리한 결과는 축소하거나 누락하는 경향이다. 이런 현상으로 인해 여러 모델의 성능을 객관적으로 비교하고, 특정 요구사항에 맞는 최적의 모델을 선택하는 과정이 매우 어려워지기 때문이다. 사용자는 파편화되고 선별적으로 제시된 정보 속에서 어떤 모델이 실제로 우수한 성능을 제공하는지 판단하기 어렵게 된다.
LLM 벤치마크에는 무엇이 있나?
LLM에게 바라는 조건이 많아지는만큼 이를 구분하기위한 벤치마크도 늘어나고 있다. 예를 들면
일반 지식 및 추론
MMLU (Massive Multitask Language Understanding): 초등 수학, 미국 역사, 컴퓨터 과학, 법률 등 57개 주제에 걸쳐 광범위한 지식과 문제 해결 능력을 평가하는 다중 선택형 벤치마크
GPQA (Graduate-level Physics Questions Assessment): 고급 물리학 지식을 평가하는 벤치마크.상식 추론
HellaSwag: 주어진 문맥에 이어질 가장 가능성 높은 문장을 선택하게 하여 상식적 추론 능력을 평가. 기계가 생성한 그럴듯한 오답을 포함하여 난이도를 높임수학적 추론
MATH: 다양한 난이도의 수학 문제 해결 능력을 평가.
GSM8K (Grade School Math 8K): 초등학교 수준의 수학 응용 문제 해결 능력을 평가.코딩
HumanEval: 주어진 문제 설명에 따라 파이썬 코드를 생성하는 능력을 평가
이외에도, 영어뿐만아니라 다른 언어적 특성을 가진 언어(한국어등)로 만들어진 벤치마크 등 계속해서 늘어나고 있다.
평가 방법과 한계
벤치마크 평가는 다양한 방법론을 통해 수행된다. 모델에게 사전 예시 없이 과제를 제시하는 '제로샷(zero-shot)' 방식, 몇 개의 예시를 보여준 후 과제를 수행하게 하는 '퓨샷(few-shot)' 방식이 대표적이다. 때로는 특정 벤치마크 데이터에 모델을 미세 조정(fine-tuning)하여 해당 영역에서의 최적 성능을 측정하기도 한다. 평가 지표로는 정답률(Accuracy), F1 점수(정밀도와 재현율의 조화 평균), BLEU/ROUGE(생성된 텍스트와 참조 텍스트 간의 유사성 측정), Perplexity(모델의 예측 불확실성 측정), BERTScore(BERT 임베딩 기반 의미 유사성 측정) 등이 사용된다.
문제는 이처럼 수많은 벤치마크 종류와 다양한 평가 방법론(제로샷/퓨샷, 특정 지표 선택 등)이 존재한다는 사실 자체가 사용자에게 혼란을 야기하고, 개발사에게는 자사 모델에 유리한 결과만 선택적으로 제시할 여지를 제공한다는 점이다. 예를 들어, A 모델이 MMLU 벤치마크에서 퓨샷 방식으로 높은 점수를 받았다고 발표하고 , B 모델이 HellaSwag 벤치마크에서 제로샷 방식으로 높은 점수를 받았다고 발표했을 때 , 각 벤치마크의 특성과 평가 방식의 차이를 깊이 이해하지 못하는 사용자는 두 모델의 성능을 객관적으로 비교하기 어렵다. 개발사는 자사 모델의 성능이 가장 돋보이는 벤치마크와 평가 설정을 선택하여 홍보할 수 있으며, 이는 벤치마크의 본래 목적인 공정한 비교를 어렵게 만든다. 벤치마크의 수가 늘어날수록 , 이러한 선택적 벤치마크 평가의 가능성은 더욱 커진다.
그러면, LLM을 더 의미있게 평가하는 방법
- 독립적인 평가 기관: 모델 개발사로부터 독립된 제3자 기관이나 플랫폼을 통해 보다 객관적이고 편향되지 않은 평가를 수행한다. 이러한 기관들은 종종 데이터 오염을 방지하기 위해 평가 데이터를 비공개로 유지하는 전략을 사용한다.
- 사용자 경험 및 사용성 중심 평가: 기술적인 벤치마크 점수 외에도, 최종 사용자가 느끼는 만족도, 사용 편의성 등 실제 사용성을 평가 지표에 포함해야 한다는 주장도 제기된다. 모델이 기술적으로는 우수하더라도 사용자가 사용하기 어렵거나 만족스럽지 못하다면 실제 가치를 제공하기 어렵기 때문이다.
- 사용자 개인의 주관적 평가 : 최종적으로는 사용자가 직접 다양한 LLM을 경험해보고, 자신의 목적과 상황에 가장 적합한 모델을 선택하는 것이 중요하다. 특정 모델이 모든 상황에 최적일 수는 없기 때문에, 주관적인 사용 후 평가 역시 유의미한 판단 기준이 된다.
'LLM' 카테고리의 다른 글
ChatGPT-4o의 이미지 생성 기능, 무엇이 달라졌고, 무엇이 문제인가? (0) | 2025.04.01 |
---|---|
ChatGPT 심층 리서치(Deep Research) 사용 후기: 빠른 자료 조사와 신뢰도 높은 정보 얻기 (0) | 2025.02.23 |
ChatGPT 모델 o1, o3, 4o 비교 분석 (0) | 2025.02.17 |
ChatGPT Pro 1일차 사용후기 (0) | 2025.02.13 |
LMStudio로 오픈소스 LLM 시작하기 (0) | 2025.01.12 |