SmartDoc là công nghệ nhận dạng và rút trích thông tin ảnh tài liệu dựa trên kỹ thuật nhận dạng ký tự quang học. Công nghệ là sự kết hợp các kỹ thuật xử lý ảnh tài liệu của Tesseract, các kỹ thuật xử lý ảnh nâng cao, xử lý nhận dạng chữ số viết tay, xử lý ngôn ngữ tự nhiên cho bài toán sửa lỗi chính tả và rút trích thông tin. Trên cơ sở kế thừa các tính năng ưu việt của công nghệ OCR, công nghệ giải quyết được các hạn chế của các chương trình hiện có và đặc biệt phù hợp với việc nhận dạng ký tự và rút trích thông tin từ văn bản hành chính ở Việt Nam. SmartDoc với các chức năng nổi bật, tạo nên sự khác biệt với các phần mềm ứng dụng khác, như:
- Tự động nhận dạng và rút trích thông tin văn bản hành chính; đảm bảo khả năng xử lý với mọi văn bản được soạn thảo theo chuẩn quy định của Bộ Nội vụ, không phụ thuộc vào đặc thù chuyên môn, chuyên ngành của văn bản.
- Ngoài văn bản hành chính, các tài liệu có cấu trúc hay bán cấu trúc, SmartDoc hỗ trợ việc cấu hình tài liệu nhanh, dễ dàng đưa vào phần mềm tự động nhận dạng và rút trích thông tin; hỗ trợ tốt công tác số hoá và rút trích thông tin tài liệu với số lượng mẫu lớn. Hiện SmartDoc đã đưa vào ứng dụng nhận dạng và rút trích thông tin hỗ trợ các ngành y tế; du lịch quản lý các tài liệu như: chứng chỉ hành nghề dược, chứng chỉ hành nghề khám chữa bệnh, giấy chứng nhận nhà thuốc…; quyết định cấp và đổi thẻ hướng dẫn viên du lịch, tài liệu quản lý cơ sở lưu trú du lịch…
- Một chức năng rất quan trọng và có tính ứng dụng cao của SmartDoc là hỗ trợ người dùng tự định nghĩa cấu hình tài liệu cần rút trích với giao diện trực quan, dễ dàng tích hợp với SmartDoc hỗ trợ tự động nhận dạng và rút trích theo định nghĩa cấu hình.
- Với chất lượng scan văn bản khá tốt như phần lớn các văn bản đang lưu hành hiện nay, cùng với chất lượng của các thiết bị số hoá (máy scan chuyên dụng và máy scan phổ thông) ngày càng cao, SmartDoc cho kết quả nhận dạng và rút trích thông tin với độ chính xác trên 95%, đảm bảo tính khả thi trong việc ứng dụng SmartDoc vào các hệ thống quản lý tài liệu thực tế.
SmartDoc cũng đảm bảo nhận dạng các ảnh văn bản có định dạng: PDF, TIFF, JPEG, BMP, PNG… và có khả năng nhận dạng văn bản theo từng vùng chỉ định. SmartDoc hỗ trợ khả năng tích hợp hệ thống dễ dàng, cho phép nhận dạng nhiều văn bản cùng lúc. Tốc độ nhận dạng và rút trích thông tin văn bản cao (5-7 giây/1 trang A4).
SmartDoc hiện đã được sử dụng trong tiếp nhận và lưu trữ, quản lý tài liệu, văn bản gửi đến tại một số đơn vị ở miền Trung như: Đại học Huế, Sở Thông tin - Truyền thông Thừa Thiên - Huế, Sở Thông tin - Truyền thông TP Đà Nẵng.
Thông tin chi tiết, liên hệ: TS Lê Trung Hiếu - Trung tâm Công nghệ thông tin (Đại học Huế);
Địa chỉ: 20 Lê Lợi, TP Huế; Tel: 0909127087; Email: hieukien@hueuni.edu.vn