Theo dõi Báo Hànộimới trên

Phần mềm quản lý văn bản và nhận dạng hình ảnh tiếng Việt

H.Đ| 17/01/2014 14:33

(HNMO) - Công ty 1VS và Công ty cổ phần Đầu tư và Phát triển Đông Kinh vừa công bố hoàn tất dự án tích hợp phần mềm


Kết quả đạt được là tạo ra bộ sản phẩm tích hợp vừa có tính năng quản lý văn bản, đồng thời có khả năng nhận dạng hình ảnh có tiếng Việt để chuyển sang định dạng văn bản thông thường, ngoài ra, còn cho phép ứng dụng nhận dạng mã vạch để tự động phân loại văn bản. Bộ sản phẩm này trợ giúp hiệu quả cho việc số hóa văn bản và xây dựng lưu trữ điện tử.

Công nghệ nhận dạng hình ảnh để chuyển dạng định dạng văn bản đã được phát triển từ thập kỷ 90 của thế kỷ trước, trong đó có một số công nghệ với mã nguồn mở như CuneiForm. Trước đây, tính năng nhận dạng bằng công nghệ mở này đã có sẵn trong giải pháp 1C:ECM, nhưng bị hạn chế là chỉ có thể nhận dạng một số ngôn ngữ phổ biến trên thế giới như tiếng Anh, tiếng Nga, tiếng Pháp, Tây Ban Nha..., mà không có tiếng Việt. Hiện nay, công nghệ nhận dạng tiếng Việt được phát triển bởi công ty ABBYY (Liên bang Nga), và việc tích hợp giữa công nghệ ABBYY và 1C:ECM cho phép giải quyết được vấn đề nhận dạng tiếng Việt trong giải pháp quản lý văn bản.

Khi triển khai hệ thống phần mềm quản lý văn bản và lưu trữ điện tử, các doanh nghiệp thường cần phải nhập một khối lượng khổng lồ văn bản giấy có sẵn từ trước đó vào hệ thống. Mỗi văn bản giấy thường tương ứng với một thẻ văn bản trong chương trình. Thông tin thuộc tính văn bản được nhập vào các thẻ văn bản, và đính kèm vào đó các tệp tin với hình ảnh Scan của văn bản gốc. Việc tạo các thẻ văn bản trong phần mềm và Scan văn bản giấy có thể chiếm rất nhiều thời gian, ví dụ, với 100 nghìn tài liệu, có thể mất tới 300 nghìn phút để hoàn tất, tức là 5.000 giờ làm việc, tương đương với 625 ngày công.

Bộ giải pháp tích hợp giữa phần mềm 1C:ECM và Abby có phương thức nhập dữ liệu hoàn toàn mới, cho phép giảm thời gian quét ảnh và nhập dữ liệu vào hệ thống hàng chục lần. Ví dụ, công việc kể trên có thể giảm xuống còn vài tuần.

Cách thức thực hiện khá đơn giản. Trước tiên, giải pháp cho phép tự động tạo toàn bộ các thẻ văn bản với cấu trúc đã định từ tệp Excel. Việc này chỉ mất chưa đến nửa tiếng trong trường hợp đã có sẵn tệp Excel, đồng thời khi đó phần mềm 1C:ECM tự khởi tạo ra hàng loạt mã vạch tương ứng (trong trường hợp chưa có mã vạch). Công việc còn lại của người sử dụng là dán mã vạch vào văn bản, và quét ảnh đồng thời hàng trăm nghìn tài liệu này. Tốc độ trung bình máy quyét ảnh công nghiệp là 25 văn bản/1 phút và trong vòng 4.000 phút quét xong 100 nghìn tài liệu, tương đương 8 ngày làm việc. Lúc đó giải pháp 1C:ECM nhờ cấu phần tích hợp với ABBYY sẽ nhận biết tài liệu qua mã vạch để tự động đính vào thẻ văn bản tương ứng.

Đặc biệt hơn nữa, khi nhận các tệp-hình vẽ (dạng BMP, TIF, TIFF, JPG, JPEG, PNG, GIF) từ máy Scan, Fax…, hệ thống 1C:ECM + ABBYY sẽ nhận dạng các tệp này và chuyển đổi hình ảnh sang định dạng văn bản thuần tiếng Việt (dạng TXT, DOC, DOCX, HTML). Tính năng này có tác dụng với cả bộ chữ Unicode và VNi. Đồng thời trong văn bản đã được chuyển đổi, các nội dung thuộc tài liệu sẽ được đánh chỉ mục cho phép tìm kiếm văn bản toàn văn theo cơ chế tương tự Google. Chức năng này đặc biệt cần thiết với doanh nghiệp có lượng lưu trữ lớn. Theo đó cơ chế tìm kiếm của 1C:ECM sẽ duyệt tìm trên một bảng chỉ mục nội dung với các đường dẫn đến tài liệu liên quan thay vì phải nặng nhọc mở từng văn bản trong hàng trăm nghìn tài liệu đang được lưu trữ để xem có nội dung cần tìm hay không.

1C:ECM và ABBYY đều là những công nghệ mạnh có nguồn gốc từ Nga.

(0) Bình luận
Nổi bật
Đừng bỏ lỡ
Phần mềm quản lý văn bản và nhận dạng hình ảnh tiếng Việt

(*) Không sao chép dưới mọi hình thức khi chưa có sự đồng ý bằng văn bản của Báo Hànộimới.