상단여백
HOME 업계소식
글나무, 2023 과기부 주관 ‘금융 분야 다국어 병렬 말뭉치 데이터 구축 사업’ 수행기관 선정
  • 박태준 기자
  • 승인 2023.09.04 11:17
  • 댓글 0

글나무(대표 문선희)가 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘2023년 인공지능(AI) 학습용 데이터 구축 사업’의 ‘금융 분야 다국어 병렬 말뭉치 데이터’ 과업 수행기관으로 선정됐다.

글나무 컨소시엄이 과학기술정보통신부가 주관하는 ‘금융 분야 다국어 병렬 말뭉치 데이터 구축 사업’의 수행기관으로 선정됐다

이번 사업은 완성도 높은 과제 수행을 위해 글나무 외에도 각 분야의 전문기업이 컨소시엄을 이뤘다. △금융 AI 번역 모델 개발 전문 글로벌 AI 기업 시스트란 △금융 다국어 번역 전문기업 렉스코드 △딥러닝 기반의 자연어 처리 연구기업 트위그팜 △국내 유일 글로벌 LSP 100대 기업으로 선정된 콘텐츠 개발 및 번역 전문기업 한샘 등이 함께 과제를 수행한다.

글나무는 이번 사업을 통해 대량의 금융 분야 문서 수집과 다국어 번역 말뭉치 구축으로 초거대 AI 도입 및 확산에 기여하고 금융 분야 기계번역 모델 성능 고도화를 목표로 한다.

글나무 컨소시엄은 사업 기간 금융 관련 문서를 공시정보, 뉴스 기사, 학술논문, 규제정보, 보고서 등 5개의 카테고리에서 총 100만 건 이상 원문을 수집하고, 영어·일본어·중국어·베트남어·인도네시아어 등 5개 국어를 언어별 각 50만 개씩 총 250만 개 문장의 번역 데이터를 구축할 예정이다.

문선희 글나무 대표는 “글로벌 핀테크 투자가 확대되는 흐름 속에 한국핀테크지원센터 등 국내 핀테크 기업의 해외 진출을 지원하기 위해 AI 통번역 서비스가 필요하며, 실시간 및 정확도 높은 통번역 결과물을 도출하기 위해 대량의 번역 데이터 구축이 필수”라고 말했다.

이어 “번역기는 규칙 및 통계 기반을 지나 신경망 기술이 도입됐으나 모델의 핵심 알고리즘은 크게 발전하지 못해 특화된 분야의 맞춤형 번역기 연구의 필요성이 확대됐다. 또 초거대 AI는 모델의 학습 과정에서 파인 튜닝을 위해 라벨링 데이터를 이용하는 등 데이터를 얼마나 완성도 있게 공급하는가에 따라 신뢰성 있는 결과를 도출할 수 있다”며 “본 과제를 통해 금융이라는 특정 전문 영역에 대한 고품질의 대량 데이터를 구축하며 기계번역 모델 개발과 학습, 그리고 다양한 평가지표 등의 연구 활성화에 앞장서고자 한다”고 포부를 밝혔다.

한편 글나무는 2022년 한국지능정보사회진흥원의 ‘관광 음식 메뉴판 데이터’ 구축 과제를 주관하면서 AI 기반 OCR 기술 향상과 한국 음식명의 외국어 번역 표기 표준화에 기여했으며, 데이터 구축뿐만 아니라 과제 전반을 체계적으로 관리함으로써 과제수행 결과에 대해 ‘우수’라는 높은 평가를 받으며 성공적으로 과제를 수행했다. AI 데이터 구축 전문기업으로서 노하우와 전문성을 인정받은 글나무는 올해 2023년의 과제도 수주하며 2년 연속 AI 학습 데이터 구축 과제의 주관사로 선정됐다.

글나무는 AI 학습 데이터 구축 외에도 해외문화홍보원, 산업통상자원부, 서울특별시 등 공공기관의 외신 모니터링 및 다국어 번역을 수행하면서 국내 번역시장에서 번역의 표준화와 전문성으로 경쟁력을 갖춘 기업으로 입지를 확대하고 있다.

박태준 기자  koteratv03@kotera.or.kr

<저작권자 © 기업정책정보신문, 무단 전재 및 재배포 금지>

박태준 기자의 다른기사 보기
icon인기기사
기사 댓글 0
전체보기
첫번째 댓글을 남겨주세요.
여백
여백
Back to Top