[금강일보 곽진성 기자] 국가수리과학연구소(소장 정순영)는 논문 내 연구장비 정보 추출 알고리즘과 기계학습 기반 논문 분야 분류 모델을 개발했다고 22일 밝혔다.

수리연에 따르면 올해 2월 NFEC으로부터 ‘연구시설장비의 연구성과 가치표현 모델 개발’ 산업수학 문제를 의뢰받았다. 범부처 연구시설장비 총괄전담기관인 NFEC은 국가 R&D 예산으로 구축된 연구시설장비를 기준으로 산출된 연구성과의 체계적 관리와 효율성을 검증할 수 있는 기반을 마련하기 위해 해당 문제를 의뢰했다.

수리연 연구진은 문제해결을 위해서는 NFEC의 ‘연구시설장비 표준분류체계’를 기반으로 각 논문의 분야를 특정하고 해당 논문에서 활용된 연구장비 정보를 추출할 수 있는 모델이 필요하다고 판단하고 연구를 진행해왔다. 먼저 연구진은 일대다(1:n) 패턴 매칭 알고리즘을 활용해 수만 건의 논문 데이터로부터 1000개 이상의 키워드를 효율적으로 검색할 수 있는 키워드 추출 알고리즘과 연구장비 정보 추출 모델을 개발했다. 이후 최근 5년간의 선도 학술지 논문 데이터를 직접 수집, 기존의 저널에서 제시된 분야가 아닌, 논문 내에서 빈도가 높은 단어를 추출해 실제 논문의 분야를 유추할 수 있는 기계학습 기반의 분류모델을 제작했다.

또 연구진은 연구시설장비를 활용, 생산된 연구 결과물의 가치를 수치화해 국가연구시설장비 표준분류별 구축 우선순위를 도출하고, 노후화 연구장비 지원의 타당성을 검증하기 위한 수학적 모델 개발도 함께 수행했다. 연구진은 학술지의 분야별 영향력 지수 분포를 고려해 개별 연구장비를 활용한 결과물의 상대적 가치를 비교할 수 있는 새로운 영향력 지수를 NFEC 측에 제안했다.

권오규 산업수학전략연구부장은 “문제해결 과정은 모델링 및 기계학습 기법을 활용한 텍스트 분석 등 다양한 수학적 접근을 통해 연구시설장비의 활용 분야와 효율성을 살펴볼 수 있었던 첫 번째 연구로서 의미가 깊다”고 말했다.

 

곽진성 기자 pen@ggilbo.com

저작권자 © 금강일보 무단전재 및 재배포 금지