Với công nghệ hiện đại ngày nay, mọi người có thể nhập dữ liệu điện tử trên máy tinh hoặc điện thoại. Tuy nhiên, không phải tất cả mọi người đều quen thuộc. Đối với nhiều khách hàng, giấy, bút mực vẫn được chuộng bởi tính quen thuộc của nó. Đó là chưa kể đến các yêu cầu pháp lý. Ví dụ ở Việt Nam, do một số lý do pháp lý, các công ty thường lưu trữ tài liệu vật lý trong nhiều năm và với số lượng lớn.
Một số công ty lưu trữ tài liệu trong văn phòng của họ, một số yêu cầu hỗ trợ từ các đối tác lưu trữ. Lưu trữ tài liệu có thể thực sự phải đối mặt với nhiều rủi ro (ví dụ như thiệt hại do nước, lửa, côn trùng; giấy tự phá hủy theo thời gian). Hơn nữa, khi lưu trữ trong kho, tìm kiếm một tài liệu cụ thể nào đó có thể là nhiệm vụ khốn khổ nếu không ai hay một hệ thống nào quản lý.
Số hóa tài liệu là quy trình chuyển đổi tài liệu giấy (analog/paper document) sang tài liệu điện tử (electronic version). Khi bạn chụp hình (quét, scan) một tài liệu giấy, nghĩa là bạn đã lưu trữ điện tử cho nó bằng phương pháp số hóa tài liệu.
Số hóa tài liệu có thể được thực hiện tại kho/nơi làm việc của khách hàng (onsite), tại văn phòng công ty cung cấp dịch vụ số hóa như công ty DIGI-TEXX, hoặc kết hợp giữa hai nơi. Một quy trình số hóa tài liệu của DIGI-TEXX sẽ bao gồm các bước sau:
1. Sửa soạn và thu thập tài liệu giấy, gỡ kim bấm, mở gáy, làm sạch, phân loại tài liệu.
2. Quét tài liệu bằng các loại công cụ scan như máy scan văn phòng, máy scan chuyên dụng, điện thoại có phần mềm scan chuyên dụng. Hình quét có thể ở dưới dạng màu, trắng đen, màu xám, với kích cỡ và độ phân giải khác nhau, tùy mục đích sử dụng và lưu trữ. Các máy scan chuyên dụng/phần mềm scan chuyên dụng sẽ cho phép định nghĩa trước các đặc tính của hình ảnh scan nhằm thống nhất định dạng hình ảnh đầu ra của cả tổ chức/ cả quy trình. Chúng tôi làm việc với các đối tác chuyên nghiệp về scanning – DSG.
3. Phân loại tài liệu tự động: Các giải pháp scan chuyên dụng có thể hỗ trợ thiết lập các cách nhận dạng và phân loại tài liệu tự động (VD: qua nhận đang barcode, nhận dạng cấu trúc tài liệu)
4. Trích lục thông tin tự động, bán tự động hoặc thủ công. Các giải pháp scan chuyên dụng tự động chuyển hình ảnh quét thành các tài liệu pdf searchable; và tự động trích lục thông tin trên tài liệu vào các trường thông tin được định nghĩa trước. Các công nghệ đứng đằng sau quá trình này là OCR, OMR, ICR. Độ chính xác của việc nhận dạng và trích lục có thể lên đến 99%, tùy loại chữ in/viết trên tài liệu. Tuy nhiên, dạng công nghệ dạng này chưa thể áp dụng thành công cho mọi loại tài liệu. Ví dụ, tài liệu chứa chữ viết tay Tiếng Việt sẽ khó có thể được nhận dạng và trích lục thành công bằng các giải pháp hiện có trên thị trường. Xem qua tài liệu giải thích thêm về các công nghệ này.
5. Trong trường hợp dữ liệu không được nhận dạng tự động, chúng ta sẽ cần can thiệp của con người. Công việc này gọi là nhập liệu. Và việc nhập liệu này có thể được hỗ trợ bởi chương trình nhập được tích hợp rất nhiều tính năng. Tất cả nhằm giúp cho người nhập liệu không mắc sai sót, cũng như nhập nhanh và hiệu quả nhất.
6. Đối chiếu, so sánh dữ liệu, kiểm tra chất lượng: Các chương trình nhập thông minh sẽ tự động đối chiếu so sanh các dữ liệu nhập, dựa theo các quy tắc đã được định nghĩa. Đội ngũ QC sau đó sẽ sử dụng các phương pháp QC thích hợp (ví dụ lấy mẫu dữ liệu) để kiểm tra chất lượng của dữ liệu.
7. Xuất dữ liệu/input vào hệ thống EDMS: dữ liệu số sau khi số hóa tài liệu cần được lưu trữ ở một nơi nào đó. Thông thường các tổ chức sẽ có nhu cầu xây dựng một thư viện số – còn gọi à Electronic Document Management System. Thư viện này cho phép lưu trữ hình ảnh, meta data, cho phép tìm kiếm, chia sẻ tài liệu, dữ liệu khi mong muốn.
8. Các tài liệu giấy sau đó sẽ được sắp xếp lại và đưa vào kho lưu trữ, hoặc hủy bỏ.