한국전자통신연구원(ETRI)은 독일어·러시아어·아랍어·베트남어 대화체 언어음성 데이터베이스(DB)를 구축해 산·학·연에 배포한다고 30일 밝혔다. 4개 국어 대화체 음성 DB 36만 문장과 한국어 대역 20만 문장이 포함돼 있다.
언어음성 DB는 음성인식 및 언어번역 분야 소프트웨어 개발이나 음성언어처리 연구의 기초자료로 사용된다. 테블릿PC나 내비게이션, 스마트폰, 전자사전, 지능형로봇 등 광범위하게 이용된다. 기업이 제품을 수출하려면 반드시 이 기초자료를 확보해야 하는데 지금까진 소프트웨어를 수입해다 썼다. 비용 부담이 클 수밖에 없는데 ETRI가 배포하는 건 가격이 기존 소프트웨어의 10분의 1도 안 된다.
ETRI가 언어음성 DB를 구축해 배포한 건 2011년부터다. 2011년 한·영·일·중 DB를 배포하고 2014년엔 프랑스어를 추가했다. 지금까지 LG전자·삼성전자·KT·네이버·카카오·보이스웨어·쓰리소프트 등 57개 기업·기관에 247개 DB가 배포됐다. 430억 원의 수입대체 비용절감 효과가 있었을 것으로 추산된다. 이번에 배포되는 DB 역시 10개 수요기관에 배포되면 120억 원의 수입대체 효과가 있다.
ETRI가 보유한 언어음성 DB는 37개 자료로 음성 2300시간, 텍스트로는 A4 기준 2만 8000장 분량이다.
이기준 기자 lkj@ggilbo.com
이기준 기자
lkj@ggilbo.com
