Độc đáo công cụ AI hỗ trợ chuyển chữ Nôm sang chữ Quốc ngữ

Công nghệ - Ngày đăng : 12:16, 25/04/2023

(HNMO) - Tháng 4-2023, lần đầu tiên nhóm nghiên cứu của Trường Đại học Khoa học tự nhên (Đại học Quốc gia thành phố Hồ Chí Minh) triển khai thử nghiệm công cụ dịch tự động chữ Nôm sang chữ Quốc ngữ tại địa chỉ http://clcnom.kimtudien.com.vn/.

Chứ Nôm là một sáng tạo của người Việt Nam trong quá trình tiếp thu tri thức nhân loại để phát triển.

Đào tạo máy móc hỗ trợ con người

Đây là nhiệm vụ khoa học cấp thành phố do nhóm chuyên gia đang công tác tại Trường Đại học Khoa học tự nhiên (Đại học Quốc gia thành phố Hồ Chí Minh) triển khai với nội dung "Xây dựng hệ thống chuyển tự tự động văn bản chữ Nôm sang chữ Quốc ngữ". Mục tiêu then chốt là xây dựng hệ thống có khả năng dịch tự động chữ Nôm sang chữ Quốc ngữ. Công trình đã được Sở Khoa học và Công nghệ thành phố Hồ Chí Minh nghiệm thu.

Theo Phó Giáo sư, Tiến sĩ Đinh Điền, Chủ nhiệm nhiệm vụ, chữ Nôm là thể loại chữ viết tay đầu tiên của người Việt Nam do các bậc tiền nhân xây dựng dựa trên chất liệu của chữ Hán, được sử dụng trong gần 1.000 năm, từ thế kỷ X đến thế kỷ thứ XIX. Trong suốt 10 thế kỷ đó, rất nhiều công trình về lịch sử, văn học, y học, nông nghiệp, địa lý… đã được biên soạn, viết bằng chữ Nôm và còn được lưu giữ cho đến ngày nay. Tuy nhiên, phần lớn tài liệu chữ Nôm vẫn chưa được dịch (chuyển tự) sang chữ Quốc ngữ sử dụng con chữ Latin, và thực tế hiện khá ít người có khả năng đọc được chữ Nôm để tìm hiểu, khai thác kho tàng văn hóa, tri thức, tư liệu lịch sử do người xưa để lại.

Truyện Kiều là tác phẩm truyện thơ nổi tiếng của đại thi hào Nguyễn Du, với 3.254 câu lục bát viết bằng chữ Nôm.

Nói về vấn đề này, Tiến sĩ Nguyễn Hoàng Chương, Phó Trưởng phòng Khoa học - Công nghệ, Trường Đại học Khoa học tự nhiên cho biết, tại Việt Nam, việc số hóa chữ Nôm đã được triển khai từ những năm 1990 đến nay, với những công cụ gõ chữ Nôm nổi bật như “Viện Hán Nôm 2002” và “Hannasoft 3.0”. Tuy nhiên, việc chuyển tự chữ Nôm sang chữ Quốc ngữ chưa phổ biến, bởi tính phức tạp do hai hệ chữ khác loại hình chữ viết. 

Vì vậy, nhóm nghiên cứu đã đặt ra mục tiêu “dạy” cho máy móc và tạo dựng công cụ ứng dụng trí tuệ nhân tạo (AI) nhận biết các nghĩa khác nhau của cùng một chữ Nôm trong các ngữ cảnh, điều kiện, vùng miền khác nhau để lựa chọn từ Quốc ngữ chính xác khi dịch. 

Đọc chữ Nôm qua điện thoại di động

Đầu tiên, nhóm xây dựng Tự điển chữ Nôm - Quốc ngữ theo hướng xây dựng một tập hợp có hệ thống các Nôm tự được giải nghĩa Quốc ngữ. Mục tiêu là giải nghĩa của từng tự, cung cấp các thông tin sâu về mặt ngôn ngữ học cho mỗi tự trong chữ Nôm (các nghĩa khác nhau của cùng một từ).

Phần chuyển ngữ Nôm sang Quốc ngữ cho kết quả khả quan hơn các công cụ tương tự.

Kết quả là nhóm đã rút trích được từ kho ngữ liệu chữ Nôm và các nguồn tham khảo đạt 22.264 mục tự. Sau đó, xây dựng tiếp Từ điển chữ Nôm - Quốc ngữ chứa 6.198 mục từ. Nhóm cũng xây dựng Từ điển chữ Hán - Việt chứa 26.330 mục tự và Từ điển chữ Hán - Việt chứa 66.450 mục từ. Kho từ ngữ này được đưa vào hệ thống Nôm Converter (www.chunom.org) mà Phó Giáo sư, Tiến sĩ Đinh Điền và các cộng sự từng nghiên cứu trước đó để dạy cho máy học và huấn luyện AI nhận biết ngữ nghĩa. Tổng số ngữ liệu đơn ngữ chữ Quốc ngữ được nhóm nghiên cứu "nạp dạy" cho hệ thống là 823.533 câu và 13.024.774 từ.

Khi dùng ứng dụng, người dùng chỉ cần chọn thể loại hay lĩnh vực muốn dịch để máy tính lựa chọn kiến thức đã học phù hợp với thể loại hay lĩnh vực mà máy đã được huấn luyện. Công cụ do nhóm phát triển có tính năng tương tự công cụ dịch Google Translator. Với điện thoại di động thông minh có cài đặt ứng dụng, mọi người có thể dễ dàng đọc chữ Nôm. Nhóm nghiên cứu sẽ tiếp tục hoàn thiện tính năng, “vá lỗi” dịch thuật để bổ sung kho từ vựng và ngữ cảnh cho AI phân tích khi dịch thuật.

Đánh giá về ứng dụng này, Phó Giáo sư, Tiến sĩ Quản Thành Thơ, Trường Đại học Bách khoa - Đại học Quốc gia thành phố Hồ Chí Minh, nhận định: “Ứng dụng mới áp dụng mô hình dịch máy mạng neural đa ngữ gồm các bộ mã hóa, giải mã cho từng ngôn ngữ, được kết nối với nhau bằng một bộ liên kết ngôn ngữ đã tăng được chất lượng chuyển tự so với mô hình dịch máy mạng neural song ngữ từng được áp dụng trước đây. Số lượng mục từ trong các tự điển vượt trội so với các ứng dụng khác, phù hợp sử dụng cho công chúng trong đọc hiểu tài liệu cổ, góp phần bảo tồn, phát huy giá trị di sản”.

Nam Trung