Перевод бумажных документов в электронный вид

Описание технологического процесса обработки документов

Принцип поточного сканирования основан на том, что на документ при регистрации наносится штрих-код. Потом помеченные штрих-кодом документы сканируются и автоматически (по штрих-коду) связываются с регистрационной карточкой соответствующего документа. Если на сканируемые документы уже нанесен штрих-код стандартного формата, то он также может быть использован для идентификации. Структурная схема работы системы представлена на рисунке.

Структурная схема работы опции

В процессе сканирования предусмотрены как опция сохранения непосредственно графического образа документа, так и возможность последующего распознавания и сохранения в текстовом формате. Это существенно облегчает дальнейшую работу с документом и расширяет возможности использования поиска. Распознавание и перевод в текстовый формат реализуются с помощью ABBYY FineReader Engine.

Многоязычные документы

Опция «Поточное сканирование» позволяет обрабатывать документы на всех поддерживаемых ABBYY FineReader языках, включая русский, английский, немецкий, французский, испанский, итальянский, шведский, финский, болгарский, венгерский, словацкий, чешский, башкирский, белорусский, казахский, украинский.

Интеграция произвольной СЭД с опцией

Интеграция с опцией «Поточное сканирование» предполагает реализацию со стороны произвольной СЭД только двух функций:

  • Формирование и отправка в опцию «Поточное сканирование» заявки на сканирование – cо стороны СЭД передается запрос, содержащий требования на обработку документа. Опция регистрирует заявку и возвращает в СЭД ее уникальный идентификатор. На данном этапе осуществляется связка уникального идентификатора заявки на сканирование с штрих-кодом, уже существующем на документе, либо вновь сгенерированным.

  • Выполнение приема и сохранение итоговых результатов, сформированных опцией «Поточное сканирование» – при этом сопоставляются результатов выполнения сканирования с объектами СЭД. Причем данное действие, осуществляющееся на основе уникального идентификатора заявки на сканирование и может быть расширено любой бизнес – логикой СЭД.

Электронный каталог документов архива

Меню настроек опции «Поточное сканирование» . Предусмотрено создание нескольких профилей для различных размеров и расположения штрих-кода на документе. Сохранение отсканированного образа возможно в любом из распространенных текстовых или графических форматов.

Одной из основной задач любого архива  является задача поиска нужной информации. Так как с каждым годом информации становится всё больше и больше, то и поиск занимает всё больше времени. Помочь здесь может перевод каталога архива (описей) в электронный вид.

Электронный каталог позволяет быстро осуществлять поиск необходимой информации.  При этом, правильно организовав электронный каталог, можно вести не только простой поиск по записям в описях, но и осуществлять выборки информации по сложным запросам с использованием дополнительных атрибутов и иерархии.

Регистрация и сканирование документов

Регистрация документа, т.е. создание регистрационной карточки, выполняется по обычным правилам используемой системы электронного документооборота. Далее, при обращении к опции «Поточное сканирование», происходят регистрация заявки на сканирование, а также генерация штрих-кода и указание параметров заявки (расположение штрих-кода, требуемые форматы, необходимость распознавания).

После того как регистрационная карточка документа будет записана в базу данных, на его первую страницу или на отдельный лист бумаги с помощью принтера наносится штрих-код. Он содержит уникальный идентификационный номер документа и устанавливает правила его обработки. Печать полученного изображения штрих-кода осуществляется средствами системы документооборота. Затем пакет зарегистрированных документов помещается в устройство подачи бумаги сканера, после чего их обработка производится автоматически.

Применение штрих-кода

В процессе сканирования, нанесенный штрих-код используется как признак окончания текущего документа и начала следующего, а содержащаяся в штрих-коде дополнительная информация применяется для дальнейшей идентификации обрабатываемого документа.

Перевод документов в электронный вид (сканирование)

Бумажная форма хранения документов имеет ряд недостатков, которые в последнее время всё больше людей и организацией заставляют переходить на электронную форму хранения информации и переводить накопленные бумажные документы в электронный вид.

Архивы, как одни из основных структур по хранению бумажных документов , также постепенно начинают переводить часть своих фондов в электронный вид. Как правило, это фонды, имеющие либо высокую ценность, либо высокую интенсивность использования.

Мы готовы предложить следующие варианты перевода документов в электронный вид:

  • сканирование документов любого типа и формата
  • распознавание текста с документов
  • ввод данных о документах в информационные системы.

Результаты сканирования

Графические документы

При сохранении графического образа документов система обеспечивает возможность конвертации изображений сканируемых документов в следующие форматы:

  • BMP (Windows or OS/2 bitmap);

  • PNG (Portable Network Graphics);

  • TIFF (Tagged Image Format);

  • JPEG (Joint Photographic Experts Group);

  • PDF (Portable Document Format).

Для каждого из них предусмотрена возможность указывать размеры изображения и дополнительные атрибуты (глубина цвета, тип сжатия и т.п.). Если размер требуемого формата отличается от текущего графического представления, то конвертация может быть выполнена с использованием заданных параметров.

Текстовые документы

Структурная схема работы опции

В случае применения технологии распознавания текста, предусмотрена возможность сохранения в большинстве наиболее распространенных форматах файлов*:

  • Текстовый файл (.txt);

  • Rich Text Format (.rtf);

  • Microsoft Excel, Microsoft Excel 2007 (.xls, .xlsx);

  • Microsoft Word 2007 (.docx);

  • HTML (.html);

  • XML (.xml);

  • PDF (Portable Document Format).

Для каждого из них предусмотрена возможность указывать дополнительные атрибуты (размер страницы, кодировка и т.п.). В режиме сохранения в виде PDF-файла возможна как запись в виде изображения, так и в виде распознанного текста.

Таким образом, опция «Поточное сканирование» реализует эффективную технологию преобразования бумажных документов в электронный вид и позволяет в сжатые сроки осуществить переход к работе с их электронными образами. Продуманные настройки, гибкие механизмы управления и подробная документация для разработчиков делают работу с системой удобной и результативной.

*Список поддерживаемых текстовых форматов зависит от возможностей используемой системы распознавания и может изменяться.