11.10.2008 00:00
Новости.
Просмотров всего: 2448; сегодня: 1.

Компания Cognitive Technologies представляет Систему автоматического анализа и сравнения текстов

Компания Cognitive Technologies представляет Систему автоматического анализа и сравнения текстов

В течение многих лет компания Cognitive Technologies ведет разработки в области анализа текстов и понимания документов. За это время компания создала технологию автоматизированного анализа текстов, способную решать широкий спектр задач. Элементы данной технологии созданы в рамках реализации крупных проектов, а также программы исследований и разработок, непрерывно ведущихся в компании. Примером одной из задач, решаемых с помощью данной технологии, является Система сравнения текстов и вероятностного определения авторства текста (проверка на плагиат) Cognitive Text Analyzer.

При разработке систем сравнения текстов необходимо исходить из того, что текст каждого автора уникален. Как рисунок отпечатков пальцев уникален для каждого человека, так и у каждого автора существует свой собственный стиль. Один автор использует больше глаголов, другой, больше существительных или прилагательных. Кто-то пишет только о природе. Кто-то о войне. У кого-то есть свои излюбленные обороты или другие литературные приемы и схемы, характеризующиеся конкретными структурными связями.

Если о принадлежности отпечатков пальцев конкретному человеку говорят методы дактилоскопии, то принадлежность текста конкретному автору можно определить с высокой точностью с помощью представляемой сегодня Cognitive Text Analyzer. Однако, при решении задачи анализа текстов необходимо принимать во внимание факт, что стиль (впрочем, как и линии руки) может со временем меняться.

Принцип работы Cognitive Text Analyzer состоит в следующем. В систему вводится исследуемый текст. Далее, Cognitive Text Analyzer проводит синтаксический, семантический и структурный разбор и анализ текста, устраняет синтаксические и семантические неоднозначности и выявляет порядка сотни характеристик, присущих данному тексту. Точное количество характеристик зависит от объема текста и разнообразия конструкций, встречающихся внутри него. Скорость разбора текста на современном офисном компьютере составляет 450-500 страниц текста в минуту.

В отличие от существующих систем проверки на плагиат, использующих признаки, которые можно рассчитать вручную (например, среднее количество слов в предложении, среднее число прилагательных и т.п.), Cognitive Text Analyzer учитывает не только и не столько грамматические категории, выделенные в тексте, сколько структурные связи, подчиненность одних конструкций другим в рамках предложения. Выделенные связи инвариантны к перестановке абзацев и предложений внутри текста, контекстной замене слов. Как показали исследования, эти характеристики демонстрируют высокую статистическую устойчивость в применении к произведениям конкретного автора. Это позволяет сравнивать текстовые произведения, получать количественные оценки их близости и с высокой статистической достоверностью судить о принадлежности перу того или иного автора. Например, если в басне И.Крылова «Ворона и лисица» заменить «ворону» на «корову», «лисицу» на «синицу», а «сыр» на «сервелат», то Cognitive Text Analyzer, несмотря на это с высокой долей вероятности подтвердит близость измененного текста к оригиналу. Аналогичная оценка будет и в случае, если в тексте переставить местами абзацы.

Основной модуль анализа и разбора текста Cognitive Text Analyzer находится в открытом доступе на интернет-сайте компании Cognitive Technologies www.cognitive.ru. Данная технология уже сегодня привлекает большое внимание исследователей в сфере лингвистики, как из России, так и из стран СНГ и ряда зарубежных стран (США, Франция, Великобритания и др.).


Ньюсмейкер: Cognitive Technologies — 214 публикаций
Поделиться:

Интересно:

Подмосковье - в числе регионов-лидеров по объему закупок у самозанятых
19.04.2024 09:21 Новости
Подмосковье - в числе регионов-лидеров по объему закупок у самозанятых
С 1 апреля 2020 года самозанятым гражданам разрешили участвовать в закупках по 223-Федеральному закону «О закупках товаров, работ, услуг отдельными видами юридических лиц» на равных условиях с малым и средним бизнесом. Это способствовало значительному приросту объёма закупок у граждан, применяющих...
День единых действий в память о геноциде советского народа в годы ВОВ
19.04.2024 07:40 Интервью, мнения
День единых действий в память о геноциде советского народа в годы ВОВ
В деле сохранения исторической правды есть особая дата - 19 апреля. В этот день в 1943 году был издан Указ Президиума Верховного Совета СССР N39 "О мерах наказания для немецко-фашистских злодеев, виновных в убийствах и истязаниях советского гражданского населения и пленных красноармейцев, для...
В Петербурге завершились съемки фильма «Блокадный Трезорка»
18.04.2024 18:13 Новости
В Петербурге завершились съемки фильма «Блокадный Трезорка»
Киностудия «Ленфильм» завершила съемки нового короткометражного фильма – «Блокадный Трезорка». Картина создается по мотивам одноименного рассказа петербургского писателя Александра Смирнова при поддержке Комитета по культуре Санкт-Петербурга. В годы блокады Ленинграда произошло немало удивительных...
Исторические памятники в московских парках
18.04.2024 09:02 Новости
Исторические памятники в московских парках
Столичные парки не просто места для прогулок и досуга: многие из них хранят память о царях, графах, меценатах и советских воинах.  Деревянный домик Петра I, «Грот», украшенный ракушками со всего мира, и березы партизан — столичные парки представляют собой своего...
Завтра стартует субботник по благоустройству воинских захоронений
17.04.2024 18:08 Новости
Завтра стартует субботник по благоустройству воинских захоронений
18 апреля стартует всероссийский субботник по благоустройству памятных мест и воинских захоронений. Волонтеры приведут в порядок памятные места, посвященные защитникам Отечества, мирным гражданам, погибшим от рук нацистов в годы войны. Традиционно накануне Дня Победы «Единая Россия» и...