Семантико-ориентированный лингвистический процессор, преобразующий неформализованную информацию в структуры знаний

Методы и средства повышения качества семантико-ориентированного

лингвистического процессора, преобразующего неформализованную

информацию в структуры знаний

(2008-2009 г.)

Шифр «ЛИНГВОПРОЦЕССОР»

Научный руководитель д.т.н., проф. Кузнецов Игорь Петрович

1. Назначение проекта <ЛИНГВОПРОЦЕССОР>

Задача исходит из текущей потребности многих служб и организаций в автоматической формализации больших объемов неструктурированной информации.

Большинству пользователей, наделенных определенными служебными обязанностями, необходима конкретная информация. Например, сотрудники информационно-аналитических подразделений выбирают из СМИ информацию об определенного рода событиях, катастрофах, террористических актах, персоналиях и др. Следователю важны фигуранты, места их жительства, телефоны, криминальные события, даты и т.п.

Для обеспечения подобных пользователей нужной информацией в рамках проектов ИПИ РАН разработаны семантико-ориентированные лингвистичекие процессоры АНАЛИТИК, ДИСКУРС, ПОТОК, обеспечивающие автоматическое извлечение объектов из текстов с формированием Базы Знаний (БЗ).

Однако, такая разработка – это трудоемкий процесс, требующий постоянной работы квалифицированного специалиста по созданию новых лингвистических знаний и их корректировки. В связи с этим актуальной задачей является дальнейшее совершенствование этих процессоров с разработкой методик и средств быстрой подстройки процессора к требованиям пользователя – с учётом его предметной область и корпусов интересующих его текстов.

2. Цели проекта <ЛИНГВОПРОЦЕССОР>.

Цель проекта - развитие методов и средств автоматической формализации текстов естественного языка (имеется в виду выделение информационных объектов и их связей) с возможностью управления этим процессом со стороны специалиста. Таким специалистом может быть пользователь, обученный методикам работы с соответствующими средствами и инструментариями.

Научная база проекта: расширенные семантические сети (РСС) для представления сложных видов знаний, инструментальная среда ДЕКЛ для обработки структур знаний, сетевые позиционные грамматики, онтологии в виде РСС, морфологический анализ на основе обобщенных окончаний. На этой основе в ИПИ РАН разработаны семантико-ориентированные лингвистические процессоры. Их особеннность - в переносе сложных этапов лингвистического анализа на уровень обработки структур знаний. Сам процессор реализован средствами языка ДЕКЛ и управляется лингвистическими знаниями в виде РСС, состоящих из правил выделения объектов (реализующих позиционные грамматики). Таким образом реализованы сложные виды синтактико-семантического анализа и идентификации.

Проект <ЛИНГВОПРОЦЕССОР> предполагает развитие методик организации лингвистических знаний: правил выделения объектов и средств их модификации с целью упрощения процедуры настройки лингвистического процессора на предметную область.

3. Краткие сведения о средствах автоматизации

Качество лингвистического процесора определяется рядом факторов.

Во-первых, это возможность выделения объектов и связей. Каждая категория пользователей работает со своими объектами, где требуется автоматическое выделение интересующих его объектов и связей. Учесть все варианты выделения объектов при создании соответствующих правил даже для небольших корпусов текстов не представляется возможным. В связи с этим требуется участие квалифицированного человека, который должен иметь соответствующий инструментарий, облегчающий процесс создания этих правил.

Во-вторых, важный фактор - это избирательность правил и процедур идентификации: коэффициет шумов и потерь. Под шумами понимается наличие лишних слов в объектах. Потери - это когда объект не выявлен или выявлен частично (в тексте есть слова, которые не вошли в объект). Шумы и потери существенно влияют на качество работы лингвистического процессора. Опыт показывает, что с увеличением количества выделяемых объектов возникают трудности, связанные с "коллизией" правил выделения: одни правила могут захватывать слова, относящиеся к другим объектам. Это один из источников шумов и потерь.

Отметим, что в связи со сложностью процессов анализа текстов настройка должна осуществляться через лингвистические знания (ЛЗ). Последние должны иметь все средства для повышения избирательности правил и необходимые интерфейсные компоненты для их создания и корректировки. В идеале с помощью ЛЗ должна обеспечиваться настройка на особенности языка - признаки, которые даются словам, на типовые конструкции и формы языка. Лингвистический процессор должен быть в значительной степени индифирентен к языку. Его задача – поддерживать ЛЗ, в том числе, процесс применения правил.

Третий фактор - возможность настройки на новые корпуса текстов, в которых могут быть ранее не учтенные словосочетания и конструкции. Отсюда следует необходимость в постоянной работе специалиста по выявлению в текстах все новых источников шумов и потерь. Для такой работы требуются средства визуализации выделенных объектов для нахождения в них ошибок, а также средства быстрого нахождения текста и его компонент, на базе которых был построен объект. Помимо этого, требуется визуализация процесса применения правил для быстрого нахождения тех из них, которые требуют корректировки.

Методы и средства автоматизации, разработанные в рамках проекта <ЛИНГВОПРОЦЕССОР>, обеспечивают управление основными компонентами лингвистического процесссора, определяющими процедуру анализа текстов. Рассмотрим эти компоненты.

4. Основные компоненты лингвистического процессора

Ядро лингвистического процессора (ЛП) включает в себя два основных блока, определяющих анализ текста: блок морфологического анализа и блок синтактико-семантического анализа.

4.1. Блок морфологического анализа.

Этот блок преобразует текст в семантическую сеть, представляющую пространственную структуру текста (ПС). В этой сети все русские слова преобразованы в каноническую (нормальную) форму. В сети представлен порядок расположения слов и других знаков, а также начало и конец каждого предложения. Для каждого слова указаны его морфологические характеристики (часть речи, падеж и др.) и чисто формальные признаки: слово с большой буквы, большими буквами, с точкой на конце и др.

Блок морфологического анализа управляется следующим образом:

- Специальным файлом MORF_PAR.MRF, определяющим преобразования слов (синонимичные, выделение терминов, удаление незначимых слов), выделение начала и конца предложения, а также признаки, которые должны быть в ПС.

- Набором предметных каталогов (каталог стран, городов, профессий и др.), благодаря которым словам даются дополнительные семантические признаки (например, что данное слово - город).

4.2. Блок синтактико-семантического анализа.

Этот блок преобразует сеть ПС в структуры знаний, в которых в явном виде присутствуют выделенные объекты и их связи. Такие структуры называются семантическими (СС). Блок реализован в виде ДЕКЛ-программы и управляется лингвистическими знаниями (ЛЗ). представленными в виде семантических сетей (РСС). Знания ЛЗ состоят из правил выделения объектов и онтологий в виде РСС.

5. Средства настройки

В рамках проекта <ЛИНГВОПРОЦЕССОР>) проведены следующие работы, связанные с созданием средств настройки лингвистического процессора:

5.1. Разработана инструментальная среда для конструирования и корректировки ДЕКЛ-программ, которые являются основой лингвистического процессора.

5.2. Разработаны методики создания предметных каталогов и средств их визуализации. Разработана интерфейсная компонента, позволяющая обученному пользователю (в дальнейшем – пользователю) выбирать нужный каталог и вносить необходимые изменения. Эти средства обеспечивают управление блоком морфологического анализа, корректировку его работы.

5.3. Разработаны средства выделения и визуализации компонент лингвистических знаний, обеспечивающих пользователю возможность самостоятельного выбора набора интересующих его объектов и глубины анализа текста. Для этого, во-первых, введена блочная организация лингвистических знаний с их привязкой к типу выявляемых объектов и процессам идентификации. И во-вторых, разработана интерфейсная компонента, позволяющая пользователю в удобных формах производить выбор набора интересующих его объектов. Именно таким образом обеспечивается внешняя настройка на предметную область пользователя.

5.4. Разработаны методики и алгоритмы для визуализации (трассировки) процесса применения правил при выявлении объектов. Обеспечивается визуализация процесса анализа текста, которая позволяет выявлять случаи коллизии и некорректной работы правил: когда правило захватывает лишнее слово (и вставляет его в объект) или пропускает нужное слово.

5.5. Разработаны методики и алгоритмы для визуализации процесса идентификации объектов и установления связей, в том числе, за счет анализа глагольных форм (допонительные возможности трассировки).

6. Публикации

  6.1. Н. В. Сомин, И.П. Кузнецов, А.Г. Мацкевич, В.Г. Николаев. Методы и

средства настройки морфо-лексического анализатора на предметную область //

Системы и средства информатики. Вып.19. – М.: Наука, 2009. – С.97-118.

  6.2. Kuznetsov, I.P., Efimov D.A., Kozerenko E.B. Tools for Tuning the Semantix Processor

 to Application Areas // Proceedings of ICAI'09, Vol. I. WORLDCOMP'09, July 13-16, 2009,

Las Vegas, Nevada, USA. - CRSEA Press, USA, 2009. P. 467-472.

 6.3. Kuznetsov I.P., Kozerenko E.B., Kuznetsov K.I., Timonina N.O. Intelligent System

for Entities Extraction (ISEE) from Natural Language Texts //

Proceedings of the International Workshop on Conceptual Structures for Extracting

Natural Language Semantics - Sense'09, Uta Priss, Galia Angelova (Eds.),

at the 17 International Conference on Conceptual Structures (ICCS'09),

University Higher School of Economics, Moscow, Russia, 2009. P. 17-25.

  6.4. Кузнецов И.П., Ефимов Д.А. Средства настройки процессора Semantix на

предметную область.  Сб. Компьютерная лингвистика и интеллектуальные

технологии. Выпуск 8 (15). По материалам конференции «Диалог 2009».

М. РГГУ, 2009 г., стр. 262-270. .

6.5. Kuznetsov I.P., Kozerenko E.B. Linguistic Рrocessor “Semantix” for Knowledge

extraction from natural texts in Russia and English. Proceeding of International Conference

on Machine Learning, ISAT-2008. 14-18 July, 2008 Las Vegas, USA// CSREA Press,

2008, p.835-841.

6.6. Кузнецов И.П., Сомин Н.В. Средства настройки семантико-ориентированного

лингвистического процессора на выделение и поиск объектов.

Сб. ИПИ РАН, Вып.18. 2008 г., стр. 119-143.

   6.7. Кузнецов И.П. Объектно-ориентированная система, основанная на знаниях

в виде XML-представлений. Сб. ИПИ РАН, Вып.18. 2008 г., стр. 96-118.

    6.8. Кузнецов И.П., Ефимов Д.А. Особенности извлечения знаний

семантико-ориентированным лингвистическим процессором Semantix.

 Сб. Компьютерная лингвистика и интеллектуальные технологии. Выпуск 7 (14).

По материалам конференции «Диалог 2008». М. РГГУ, 2008 г., стр. 281-291.

    6.9. Кузнецов И.П., Ефимов Д.А. Клиент-серверная система обработки текстов на

основе семантического анализа и технологии баз знаний.

 Сб. «Информатизация и связь». Специальный выпуск. М. ЦИТиС. 2008 г., стр. 59-61.