▲ 국립국어원이 인공지능 시대에 한국언어문화 자원을 구축의 방향을 찾기 위해 매년 국제 학술 대회를 열린다. 사진은 지난해 12월 4일 서울시 중구 대한상공회의소에서 열린 학술대회 모습. Một hội thảo học thuật quốc tế với chủ đề xu hướng toàn cầu về trí tuệ nhân tạo (AI) và tài nguyên ngôn ngữ do Viện Ngôn ngữ Quốc gia Hàn Quốc (NIKL) tổ chức tại trụ sở chính của Phòng Thương mại và Công nghiệp Hàn Quốc (KCCI), quận Jung-gu, thành phố Seoul vào ngày 4/12/2024. (Ảnh: Viện Ngôn ngữ Quốc gia Hàn Quốc - 국립국어원)
문화체육관광부 국립국어원은 한국어 기반 인공지능(AI) 기술 개발에 박차를 가하고 있다. AI 기술 개발을 위해 한국어 데이터의 체계적인 수집을 바탕으로 한국어 말뭉치(corpus)를 구축하고 있다. 이를 통해 한국어 기반 AI 기술을 발전시키고 인공지능 한류의 기반을 다지는 게 목표다.
Khi công nghệ trí tuệ nhân tạo (AI) ngày càng trở nên tinh vi, phổ biến và được ứng dụng nhiều hơn vào cuộc sống của chúng ta, nhiều quốc gia trên toàn thế giới đang tiếp tục đầu tư vốn, nguồn lực vào việc phát triển AI, và Hàn Quốc cũng là một trong số đó.
Hiện nay, Viện Ngôn ngữ Quốc gia Hàn Quốc (NIKL) thuộc Bộ Văn hóa, Thể thao và Du lịch Hàn Quốc (MCST) đang đẩy nhanh dự án tạo ra các kho ngữ liệu văn bản (corpus) tiếng Hàn chất lượng cao với mục đích phát triển công nghệ AI dựa trên tiếng Hàn.
말뭉치는 사람들이 실제로 사용하는 언어 자료를 컴퓨터가 처리할 수 있는 형태로 정리한 데이터. AI가 한국어를 더 잘 이해하고 활용할 수 있도록 돕는 기본 자료인 셈이다. 도서와 신문 기사뿐만 아니라 유튜브 스크립트, 블로그, 메신저 대화 등 다양한 문어·구어 자료가 포함된다. 이러한 말뭉치는 언어 연구와 교육뿐만 아니라 AI 기술 개발에도 핵심적인 자원으로 활용된다.
Ngữ liệu văn bản bao gồm những dữ liệu về ngôn ngữ được sắp xếp để máy tính có thể xử lý được, chẳng hạn như: cuốn sách, bài báo, phụ đề trên YouTube, blog hay trò chuyện trên messenger. Vai trò của nó không chỉ là giúp AI sẽ hiểu và sử dụng tiếng Hàn một cách hiệu quả hơn, mà còn hỗ trợ các nghiên cứu về ngôn ngữ cũng như phát triển AI.
국립국어원은 세 가지 유형의 말뭉치를 개발하고 있다. 별도의 분석 없이 원문 자료를 전자화한 원시 말뭉치, 문장 단위와 어절 단위 등에 특정 분석 정보를 부착한 분석 말뭉치가 그것이다. 여기에 동일한 내용을 두 개 이상 언어로 구성한 병렬 말뭉치가 대상이다. 모두 AI 번역 기술 발전에 핵심적인 요소이다.
NIKL đang phát triển ba loại ngữ liệu văn bản: 1) ngữ liệu văn bản có tài liệu gốc được số hóa mà không phân tích; 2) ngữ liệu văn bản có các câu và cụm từ kèm theo thông tin phân tích; 3) ngữ liệu văn bản song song có những nội dung từng được biên dịch bằng hai hoặc nhiều ngôn ngữ. Cả ba đều là những yếu tố chính để phát triển phần mềm hay công cụ dịch thuật AI.

국립국어원 언어정보과 박미영 학예연구관은 "인공지능 문화 한류 기반 조성을 위해 한국어를 중심으로 한 AI 통·번역 기술 개발을 지원하고, 언어문화산업의 성장 동력을 마련하고자 '한국어-외국어 병렬 말뭉치' 구축 사업을 시작했다"고 배경을 설명했다.
Bà Park Miyoung, nhà nghiên cứu cấp cao từ NIKL, đã cho biết: “Để đặt nền tảng cho làn sóng Hallyu dựa trên AI, chúng tôi đã bắt đầu hỗ trợ việc phát triển công nghệ phiên - biên dịch áp dụng AI, đồng thời thúc đẩy dự án phát triển kho ngữ liệu văn bản song song tiếng Hàn - tiếng nước ngoài với mục đích đảm bảo động lực tăng trưởng cho ngành ngôn ngữ và văn hóa”.
사업은 지난 2021년 문화체육관광부가 발표한 '한국 언어문화 산업 빅데이터 구축 중장기 전략 계획'에 따라 한국어 번역 자료가 부족한 외국어를 중심으로 병렬 말뭉치를 구축 중이다.
Dự án phát triển kho ngữ liệu văn bản song song tiếng Hàn - tiếng nước ngoài là một phần của kế hoạch trung dài hạn cho việc tạo ra một kho dữ liệu lớn trong ngành ngôn ngữ và văn hóa do Bộ VHTTDL Hàn Quốc công bố vào năm 2021. Dự án này đặc biệt nhắm vào các ngôn ngữ nước ngoài thiếu thông tin về bản dịch sang tiếng Hàn.
한국어 교육 수요와 번역 필요성을 고려해 베트남어, 인도네시아어, 태국어, 힌디어(인도), 크메르어(캄보디아), 타갈로그어(필리핀), 러시아어, 우즈베크어 등 총 8개 언어를 선정했다.
Cân nhắc những quốc gia có nhu cầu học tiếng Hàn ngày càng tăng mạnh, NIKL đã lựa chọn 8 thứ tiếng bao gồm: tiếng Việt, tiếng Indonesia, tiếng Thái, tiếng Hindi (Ấn Độ), tiếng Khmer (Campuchia), tiếng Tagalog (Philippines), tiếng Nga và tiếng Uzbek.
'한국어-외국어 병렬 말뭉치'는 기계 번역이 아닌 전문가 번역을 통해 제작돼 고품질을 자랑한다. 매년 업데이트된 번역 지침을 기반으로 검수를 해 신뢰성도 확보했다. 지난 2021년부터 2023년까지 구축된 데이터는 국립국어원 '모두의 말뭉치'(kli.korean.go.kr/corpus) 누리집에서 공개됐다. 지난해 구축 데이터는 올해 안에 공개될 예정이다.
Kho ngữ liệu văn bản song song tiếng Hàn - tiếng nước ngoài của NIKL đã được phát triển bởi các chuyên gia biên dịch để đảm bảo chất lượng cao. Những nội dung được thu thập từ năm 2021-23 đã được công bố trên trang web Modu Corpus (https://kli.korean.go.kr), và những nội dung được thu thập vào năm ngoái sẽ được công bố vào cuối năm.
말뭉치는 AI 번역 기술 향상에 폭넓게 활용된다. 네이버의 하이퍼클로바X와 SK텔레콤의 에이닷서비스 등 주요 AI 모델이 이 데이터를 학습하고 있다. 통·번역 전문가 양성을 위한 실무 교육 자료로도 가치가 높을 수밖에.
Kho ngữ liệu văn bản được sử dụng rộng rãi để nâng cao năng lực dịch thuật của AI. Các dịch vụ AI hàng đầu như HyperClovaX của cổng thông tin tìm kiếm NAVER và A. (A dot) của hãng viễn thông SK Telecom cũng áp dụng kho ngữ liệu văn bản do NIKL phát triển.
▲ 2021년부터 구축된 '한국어-외국어 병렬 말뭉치'가 '모두의 말뭉치' 누리집에서 공개돼 있다. '모두의 말뭉치' 공식 누리집 갈무리 Trang web về kho ngữ liệu văn bản tiếng Hàn. (Ảnh: Chụp màn hình từ trang web về kho ngữ liệu văn bản tiếng Hàn)박 연구관은 "한국에서 장기 거주하는 외국인이 늘고 있지만 일부 언어는 행정과 공공 서비스에서 번역 지원이 부족한 상황"이라며 "기계번역 기술을 더욱 발전시키려면 제1차 사업(2021~2025년)에 이어 제2차 사업(2026~2030년)을 계속 추진할 필요가 있다"고 말했다.
Nhà nghiên cứu Park nói: “Số lượng người nước ngoài sống lâu năm tại Hàn Quốc đang tăng lên, nhưng vẫn còn thiếu hỗ trợ biên dịch trong các dịch vụ hành chính và công cộng. Chúng tôi phải tiếp tục thực hiện dự án thứ hai (2026-2030) sau khi hoàn thành dự án đầu tiên (2021-2025) để phát triển hơn nữa công nghệ dịch máy”.
특히 "AI 성능을 효과적으로 높이려면 텍스트뿐만 아니라 이미지, 음성, 영상 같은 다양한 데이터를 함께 구축해야 한다"며 "앞으로도 더욱 다양한 말뭉치를 개발해 인공지능 문화 한류를 선도해 나가겠다"라고 다부진 의지를 드러냈다.
“Để nâng cao hiệu suất AI, chúng tôi phải thu thập thêm nhiều dữ liệu có hình thức khác nhau như hình ảnh, âm thanh, video. Chúng tôi sẽ tiếp tục phát triển nhiều loại ngữ liệu văn bản để dẫn đầu làn sóng Hallyu dựa trên AI”, theo bà.
서울 = 테레시아 마가렛 기자 margareth@korea.kr
Bài viết từ Margareth Theresia, margareth@korea.kr
0 Comment: