
국립한밭대학교 컴퓨터공학과의 노동원 석사과정과 고동혁 학부생이 공동으로 개발한 새로운 국제 벤치마크인 ‘ScholarBench’가 자연어처리 분야의 권위 있는 학회 EMNLP 2025에서 포스터로 발표됐다.
이 연구는 거대언어모델(LLM)의 ‘학문적 사고력’을 평가하기 위한 목적으로 설계됐으며 한국어와 영어로 구성된 학술 추론 데이터셋을 제안한다.
ScholarBench는 기존의 일반적인 언어모델 벤치마크가 주로 문장 완성, 단순 질의응답, 상식적 추론에 초점을 맞추고 있어 ‘학문적 사고의 계층적 구조’를 충분히 반영하지 못한다는 점에 주목했다.
이를 해결하기 위해 연구팀은 추상화(Abstraction), 이해(Comprehension), 추론(Reasoning)의 세 가지 인지적 단계에 따라 문항을 구성했다. 또 자연과학, 응용과학, 사회과학, 인문학 등 총 8개 분야를 포함해 실제 논문 수준의 복잡한 개념 관계와 논증 구조를 반영했다.
ScholarBench는 영어와 한국어 두 언어 버전을 동일한 주제와 구조로 제작, 모델의 언어 간 사고력 균형과 학술적 추론의 일관성을 동시에 평가할 수 있도록 설계된 점이 큰 특징이다. 이를 통해 연구팀은 두 언어에서의 학문적 사고력을 비교하고 분석할 수 있는 기반을 마련했다.
연구팀은 최신 언어모델들을 ScholarBench로 평가한 결과 GPT-4o와 Claude-3와 같은 상용 모델조차 학문적 추론 단계에서 평균 점수 0.54에 머무른다고 밝혔다. 이는 거대언어모델이 표면적 이해에는 강하지만 논증 구조나 개념 간 관계 추론에서는 한계가 있음을 보여준다. 따라서 ScholarBench는 단순한 성능 경쟁이 아니라 모델의 ‘사고 과정’ 자체를 들여다보는 평가 틀로서 중요한 의미를 가진다.
박천음 교수 연구팀은 “ScholarBench가 단순한 벤치마크를 넘어 한국어 학술 데이터를 이해하고 생성할 수 있는 AI의 발전 방향을 제시할 것”이라며 “이번 연구는 한국 연구자들이 국제적 수준의 AI 평가 생태계에 적극 참여할 수 있는 기반이 될 것”이라고 말했다.
조길상 기자 pcop@ggilbo.com
