“Dạy tiếng Việt” cho... máy tính

Công nghệ - Ngày đăng : 07:34, 13/03/2010

(HNM) - Giải thưởng KovaleVskaia 2009 đánh dấu chặng đường 31 năm giảng dạy, nghiên cứu của Phó Giáo sư, Tiến sỹ Phan Thị Tươi (nguyên Hiệu trưởng Trường Đại học Bách khoa TP Hồ Chí Minh) với những đóng góp quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên - tiếng Việt trên máy tính (bắt lỗi chính tả tiếng Việt, dịch tự động Anh - Việt, Việt - Anh, truy xuất dữ liệu…).

Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một trong những lĩnh vực khó nhất của trí tuệ nhân tạo, tập trung vào các ứng dụng "dạy" máy tính hiểu được ý nghĩa và tương tác, giao tiếp bằng chính ngôn ngữ con người. Trong khi các nghiên cứu và ứng dụng NLP của nhiều nước trên thế giới đã có hơn nửa thế kỷ nhưng vẫn còn quá mới mẻ tại Việt Nam. Và "xử lý tiếng Việt" lại chỉ có thể do chính người Việt làm chứ không thể chuyển giao công nghệ từ nước ngoài. Điều ấy đã thúc đẩy Tiến sỹ Phan Thị Tươi lao vào nghiên cứu và bảo vệ thành công luận án tiến sỹ tại Trường ĐH Tổng hợp Tiệp Khắc (Karlova Universita) năm 1985 với đề tài "Giao tiếp với máy tính trên cơ sở dữ liệu bằng tiếng Việt". Niềm đam mê "Việt hóa" các tiện ích máy tính được cô truyền đến nhiều thế hệ sinh viên công nghệ thông tin Trường ĐH Bách khoa, hình thành "cái nôi NLP" với không ít tiến sỹ, thạc sỹ trưởng thành.

PGS-TS Phan Thị Tươi vẫn say mê nghiên cứu khoa học.

Vừa tham gia giảng dạy, vừa đảm trách vai trò lãnh đạo một trường đại học hàng đầu trong nước, Tiến sỹ Phan Thị Tươi vẫn không ngừng nghiên cứu chuyên sâu các ứng dụng NLP. Từ năm 1993 đến nay, cô là chủ nhiệm của 9 đề tài khoa học được nghiệm thu với kết quả đánh giá cao: Tạo bộ sinh tự động phân tích từ vựng, cú pháp, ứng dụng dịch tự động Anh - Việt, Việt - Anh, trợ giúp truy xuất thông tin bằng tiếng Việt… Trong đó, chương trình "Bắt lỗi chính tả tiếng Việt bằng máy tính", không chỉ có khả năng bắt lỗi chính tả từ vựng do đánh máy nhầm, mà kể cả những lỗi sai nghĩa trong ngữ cảnh văn phong của câu. Chương trình này còn có thể tự động tạo ra các luật bắt lỗi chính tả, với hơn 20.000 luật và bộ tự điển 30.000 từ. Riêng công cụ "trợ giúp truy xuất thông tin" được cải tiến thông minh hơn, có thể "hiểu" được ngữ nghĩa nên không chỉ tìm kiếm dưới dạng từ khóa (tương tự cách thức của Google) mà còn tìm được cả những thông tin liên quan đồng nghĩa với từ khóa.

Điều đáng trân trọng là các công trình của cô tập trung nghiên cứu nền tảng, xây dựng "hạ tầng cơ sở" (cơ sở dữ liệu, kho ngữ liệu) vì mục tiêu phát triển lâu dài trong lĩnh vực NLP và chia sẻ mở rộng cho các nhóm nghiên cứu đi sau kế thừa, rút ngắn tiến độ và hoàn thiện bộ sản phẩm tốt hơn. Cô đã viết 3 quyển sách cùng hơn 40 bài báo phổ biến kết quả các công trình nghiên cứu. Các đề tài khoa học của cô Tươi luôn gắn liền với hoạt động giảng dạy, đào tạo đội ngũ cán bộ khoa học (thạc sỹ, tiến sỹ) như người đưa đò bền bỉ, thầm lặng chuyển tải kiến thức và từ đó đã có 30 thạc sỹ, 3 tiến sỹ trưởng thành nối tiếp.

Sau 10 năm trên cương vị Hiệu trưởng, PGS-TS Phan Thị Tươi đã góp phần xây dựng ĐH Bách khoa TP Hồ Chí Minh trở thành đơn vị Anh hùng Lao động thời kỳ đổi mới với những thành tích ấn tượng (3 lần vô địch Giải Robocon châu Á - Thái Bình Dương). Hiện nay, nhóm nghiên cứu của cô đang tham gia nghiên cứu đề tài khoa học cấp Nhà nước "Nghiên cứu, xây dựng một số hệ thống khai thác thông tin đa phương tiện có hỗ trợ tiếng Việt". Hệ thống hỏi đáp này có khả năng tìm kiếm thông tin trong các nguồn cơ sở tri thức để trả lời yêu cầu của người sử dụng, tạo ra mô hình "tổng đài 1080 tự động", bỏ qua cách làm thủ công, cùng lúc có thể giải đáp hàng trăm ngàn câu hỏi.

Bình Minh