Открытая система оптического распознавания символов CuneiForm компании Cognitive Technologies спустя годы вновь вошла в список лучших OCR – систем в мире за 2017 год. Результаты исследования опубликовал международный портал WinBeginner (https://winbeginner.com/the-best-ocr-software/).
Напомним, что в 2008 году Cognitive Technologies открыла исходные коды CuneiForm. В том же году OpenSource сообществом была выпущена версия Open OCR CuneiForm для ОС Linux.
«Нынешний интерес к нашей открытой OCR-системе связан как с общемировым трендом повышения интереса к свободному ПО, так и с высоким, промышленным качеством распознавания CuneiForm, достаточным для решения практических задач по вводу печатных текстов», говорит генеральный директор Cognitive Technologies Андрей Черногоров. «OCR CuneiForm сегодня довольно популярна в мире. В последнее время мы много встречаемся с известными автопроизводителями и другими разработчиками беспилотных систем из США, Европы и Азии, и нам было приятно узнать, что нашу компанию в мире хорошо знают по этому продукту. По нашим оценкам, открытой OCR CuneiForm сегодня пользуются миллионы людей во всем мире, и это число растет из года в год. Причем наибольший рост наблюдается в странах Азии», заключает Черногоров.
OpenSource сообщество регулярно адаптирует систему CuneiForm для работы с новыми версиями операционных систем и иных программных ресурсов.
Стоит заметить, что OCR CuneiForm также входит в списки известных СПО-продуктов в мире. Она регулярно попадает в обзоры открытых систем распознавания https://www.geckoandfly.com/11911/ocr-software-free-google-microsoft-pdf/ .
https://www.slant.co/topics/4148/viewpoints/2/~linux-ocr-programs~cuneiform
Дополнительная информация
Система CuneiForm (https://ru.wikipedia.org/wiki/CuneiForm) в 90-е годы была одной из самых популярных не только в России, но и за ее пределами. По точности распознавания она входила в первую тройку лучших систем мира. Ею комплектовались все сканеры Hewllett-Packard, поставляемые в Россию, а также сканеры и МФУ многих известных брендов: Canon, Epson, Xerox, Samsung, Olivetti и других. Ее модуль распознавания встроен в популярный издательский пакет Corel Draw. Она также поставлялась в комплекте со сканерами известных брендов в Европе и мире. В конце 90-х, когда OCR - системы уже давно достигли промышленного уровня распознавания, компания Cognitive Technologies, изменила стратегию своих разработок, переместив акцент на реализацию крупных проектов, сохранив распознавание, как утилиту. В 2008 году были открыты исходные коды OCR CuneiForm.
Возможности открытой OCR CuneiForm:
• высокое качество распознавания;
• высокая скорость работы;
• распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);
• работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматический фрагментации;
• распознавание таблиц любой структуры и сложности, в том числе и без линий разграфки;
• автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
• полное сохранение топологии страницы;
• поддержка пакетного режима сканирования и распознавания;
• простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;
• встроенный текстовый редактор для работы с распознанным текстом;
• совмещенный показ изображений и результатов распознавания.
В системе используется целый ряд уникальных технологий, среди которых адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и другие.
OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.