Компания Cognitive Technologies объявляет о выходе новой технологии, предназначенной для пакетного сканирования, обработки и сжатия документов — Cognitive ScanPack. Ее создание стало возможно благодаря новым алгоритмам анализа изображений, разработка которых является очередным этапом в решении задачи понимания документов. Технология предназначена для широкого класса бизнес-документов (факсы, договоры, деловые письма, счета, накладные, таблицы и т.д.), доля которых в отечественном документообороте составляют более 90%. В настоящее время технология Cognitive ScanPack уже применяется в системах ввода документов мощностью 10 000 – 100 000 страниц в день, созданных специалистами Cognitive Technologies.
При работе с оцифрованными документами, книгами и журналами и т.д. существует две основные проблемы. Во-первых, требуется получить их приемлемое визуальное качество. Однако, известно, что качественное изображение практически всегда занимает чрезмерные объемы дискового пространства. С громоздкими оцифрованными документами неудобно работать, дорого хранить, при их передаче по сетям связи генерируется значительный трафик.
Во-вторых, существует необходимость улучшения качества изображения (например, для его дальнейшего распознавания) — очищения от различного рода помех и искажений: следов маркера, капель чернил, следов некачественной печати, следов от дырокола. Да и исходный документ может быть ветхим, напечатанным на плохой бумаге, или быть плохой копией оригинала.
Разработанная в компании Cognitive Technologies технология Cognitive ScanPack позволяет решить обе эти проблемы и автоматизировать весь процесс оцифровки бумажных документов — от сканирования до сжатия и упаковки в файлы.
Главным отличием технологии Cognitive ScanPack от существующего программного обеспечения для пакетного сканирования и ввода документов является реализация возможностей эффективного сжатия изображений документов. Данный результат был получен за счет реализации в технологии некоего подобия экспертной системы — Cognitive ScanPack умеет понимать тип и структуру документа и автоматически подбирает наиболее подходящий режим обработки. После удаления искажений и помех изображение автоматически разделяется на так называемые слои (текст, иллюстрации, печати, подписи и т. п.). При этом система сама принимает разумное решение — выбирает для каждого слоя свой — наиболее оптимальный алгоритм сжатия с целью получения наиболее качественное и одновременно компактного изображения. В Cognitive ScanPack предусмотрена возможность распознавания текстовых слоев при помощи встроенного ядра OCR-системы CuneiForm (OpenOCR).