Главная Страница > Проекты |
Методы и средства повышения качества
семантико-ориентированного
лингвистического процессора,
преобразующего неформализованную
информацию в структуры знаний
(2008-2009 г.)
Шифр «ЛИНГВОПРОЦЕССОР»
Научный руководитель д.т.н., проф. Кузнецов Игорь Петрович
1.
Назначение проекта <ЛИНГВОПРОЦЕССОР>
Задача исходит из текущей потребности
многих служб и организаций в автоматической формализации больших объемов
неструктурированной информации.
Большинству пользователей, наделенных
определенными служебными обязанностями, необходима конкретная информация.
Например, сотрудники информационно-аналитических подразделений выбирают из СМИ
информацию об определенного рода событиях, катастрофах, террористических актах,
персоналиях и др. Следователю важны фигуранты, места их жительства, телефоны,
криминальные события, даты и т.п.
Для обеспечения подобных пользователей
нужной информацией в рамках проектов ИПИ РАН разработаны семантико-ориентированные
лингвистичекие процессоры АНАЛИТИК, ДИСКУРС, ПОТОК, обеспечивающие
автоматическое извлечение объектов из текстов с формированием Базы Знаний (БЗ).
Однако, такая разработка – это трудоемкий
процесс, требующий постоянной работы квалифицированного специалиста по созданию
новых лингвистических знаний и их корректировки. В связи с этим актуальной
задачей является дальнейшее совершенствование этих процессоров с разработкой методик
и средств быстрой подстройки процессора к требованиям пользователя – с учётом
его предметной область и корпусов интересующих его текстов.
2.
Цели проекта <ЛИНГВОПРОЦЕССОР>.
Цель проекта - развитие методов и средств автоматической
формализации текстов естественного языка (имеется в виду выделение информационных
объектов и их связей) с возможностью управления этим процессом со стороны специалиста. Таким специалистом может быть пользователь,
обученный методикам работы с соответствующими средствами и инструментариями.
Научная база проекта: расширенные
семантические сети (РСС) для представления сложных видов знаний,
инструментальная среда ДЕКЛ для обработки структур знаний, сетевые позиционные
грамматики, онтологии в виде РСС, морфологический анализ на основе обобщенных
окончаний. На этой основе в ИПИ РАН разработаны семантико-ориентированные
лингвистические процессоры. Их особеннность - в переносе сложных этапов
лингвистического анализа на уровень обработки структур знаний. Сам процессор
реализован средствами языка ДЕКЛ и управляется лингвистическими знаниями в виде
РСС, состоящих из правил выделения объектов (реализующих позиционные
грамматики). Таким образом реализованы сложные виды синтактико-семантического
анализа и идентификации.
Проект <ЛИНГВОПРОЦЕССОР> предполагает развитие
методик организации лингвистических знаний: правил выделения объектов и средств
их модификации с целью упрощения процедуры настройки лингвистического
процессора на предметную область.
3. Краткие сведения о
средствах автоматизации
Качество лингвистического процесора
определяется рядом факторов.
Во-первых, это возможность выделения
объектов и связей. Каждая категория пользователей работает со своими объектами,
где требуется автоматическое выделение интересующих его объектов и связей.
Учесть все варианты выделения объектов при создании соответствующих правил даже
для небольших корпусов текстов не представляется возможным. В связи с этим требуется
участие квалифицированного человека, который должен иметь соответствующий
инструментарий, облегчающий процесс создания этих правил.
Во-вторых, важный фактор - это
избирательность правил и процедур идентификации: коэффициет шумов и потерь. Под
шумами понимается наличие лишних слов в объектах. Потери - это когда объект не
выявлен или выявлен частично (в тексте есть слова, которые не вошли в объект). Шумы
и потери существенно влияют на качество работы лингвистического процессора.
Опыт показывает, что с увеличением количества выделяемых объектов возникают
трудности, связанные с "коллизией" правил выделения: одни правила
могут захватывать слова, относящиеся к другим объектам. Это один из источников
шумов и потерь.
Отметим, что в связи со сложностью
процессов анализа текстов настройка должна осуществляться через лингвистические
знания (ЛЗ). Последние должны иметь все средства для повышения избирательности правил
и необходимые интерфейсные компоненты для их создания и корректировки. В идеале
с помощью ЛЗ должна обеспечиваться настройка на особенности языка - признаки,
которые даются словам, на типовые конструкции и формы языка. Лингвистический
процессор должен быть в значительной степени индифирентен к языку. Его задача –
поддерживать ЛЗ, в том числе, процесс применения правил.
Третий фактор - возможность настройки на
новые корпуса текстов, в которых могут
быть ранее не учтенные словосочетания и конструкции. Отсюда следует
необходимость в постоянной работе специалиста по выявлению в текстах все новых
источников шумов и потерь. Для такой работы требуются средства визуализации выделенных
объектов для нахождения в них ошибок, а также средства быстрого нахождения
текста и его компонент, на базе которых был построен объект. Помимо этого,
требуется визуализация процесса применения правил для быстрого нахождения тех
из них, которые требуют корректировки.
Методы и средства автоматизации, разработанные
в рамках проекта <ЛИНГВОПРОЦЕССОР>, обеспечивают управление основными компонентами
лингвистического процесссора, определяющими процедуру анализа текстов.
Рассмотрим эти компоненты.
4. Основные
компоненты лингвистического процессора
Ядро лингвистического процессора (ЛП)
включает в себя два основных блока, определяющих анализ текста: блок
морфологического анализа и блок синтактико-семантического анализа.
4.1. Блок морфологического анализа.
Этот блок преобразует
текст в семантическую сеть, представляющую пространственную структуру текста (ПС).
В этой сети все русские слова преобразованы в каноническую (нормальную) форму.
В сети представлен порядок расположения слов и других знаков, а также начало и
конец каждого предложения. Для каждого слова указаны его морфологические
характеристики (часть речи, падеж и др.) и чисто формальные признаки: слово с
большой буквы, большими буквами, с точкой на конце и др.
Блок морфологического анализа управляется
следующим образом:
- Специальным файлом MORF_PAR.MRF,
определяющим преобразования слов (синонимичные, выделение терминов, удаление
незначимых слов), выделение начала и конца предложения, а также признаки,
которые должны быть в ПС.
- Набором предметных каталогов (каталог
стран, городов, профессий и др.), благодаря которым словам даются дополнительные
семантические признаки (например, что данное слово - город).
4.2. Блок синтактико-семантического
анализа.
Этот блок преобразует сеть
ПС в структуры знаний, в которых в явном виде присутствуют выделенные объекты и
их связи. Такие структуры называются семантическими (СС). Блок реализован в
виде ДЕКЛ-программы и управляется лингвистическими знаниями (ЛЗ).
представленными в виде семантических сетей (РСС). Знания ЛЗ состоят из правил
выделения объектов и онтологий в виде РСС.
5. Средства настройки
В рамках проекта <ЛИНГВОПРОЦЕССОР>)
проведены следующие работы, связанные с созданием средств настройки лингвистического
процессора:
5.1. Разработана инструментальная среда для
конструирования и корректировки ДЕКЛ-программ, которые являются основой
лингвистического процессора.
5.2. Разработаны методики создания
предметных каталогов и средств их визуализации. Разработана интерфейсная
компонента, позволяющая обученному пользователю (в дальнейшем – пользователю) выбирать
нужный каталог и вносить необходимые изменения. Эти средства обеспечивают
управление блоком морфологического анализа, корректировку его работы.
5.3. Разработаны средства выделения и
визуализации компонент лингвистических знаний, обеспечивающих пользователю возможность самостоятельного выбора набора интересующих его
объектов и глубины анализа текста. Для этого, во-первых, введена блочная
организация лингвистических знаний с их привязкой к типу выявляемых объектов и
процессам идентификации. И во-вторых, разработана интерфейсная компонента,
позволяющая пользователю в удобных формах производить выбор набора интересующих
его объектов. Именно таким образом обеспечивается внешняя настройка на
предметную область пользователя.
5.4. Разработаны методики и алгоритмы для
визуализации (трассировки) процесса применения правил при выявлении объектов.
Обеспечивается визуализация процесса анализа текста, которая позволяет выявлять
случаи коллизии и некорректной работы правил: когда правило захватывает лишнее
слово (и вставляет его в объект) или пропускает нужное слово.
5.5. Разработаны методики и алгоритмы для
визуализации процесса идентификации объектов и установления связей, в том
числе, за счет анализа глагольных форм (допонительные возможности трассировки).
6. Публикации
6.1. Н. В. Сомин, И.П. Кузнецов, А.Г. Мацкевич, В.Г. Николаев. Методы и
средства настройки морфо-лексического анализатора на предметную область //
Системы и средства информатики. Вып.19. – М.: Наука, 2009. – С.97-118.
6.2. Kuznetsov, I.P., Efimov D.A., Kozerenko E.B. Tools for Tuning the Semantix Processor
to Application Areas // Proceedings of ICAI'09, Vol. I. WORLDCOMP'09, July 13-16, 2009,
Las Vegas, Nevada, USA. - CRSEA Press, USA, 2009. P. 467-472.
6.3. Kuznetsov I.P., Kozerenko E.B., Kuznetsov K.I., Timonina N.O. Intelligent System
for Entities Extraction (ISEE) from Natural Language Texts //
Proceedings of the International Workshop on Conceptual Structures for Extracting
Natural Language Semantics - Sense'09, Uta Priss, Galia Angelova (Eds.),
at the 17 International Conference on Conceptual Structures (ICCS'09),
University Higher School of Economics, Moscow, Russia, 2009. P. 17-25.
6.4. Кузнецов И.П., Ефимов Д.А. Средства настройки процессора Semantix на
предметную область. Сб. Компьютерная лингвистика и интеллектуальные
технологии. Выпуск 8 (15). По материалам конференции «Диалог 2009».
М. РГГУ, 2009 г., стр. 262-270. .
6.5. Kuznetsov I.P., Kozerenko E.B. Linguistic Рrocessor “Semantix” for Knowledge
extraction from natural texts in
Russia and English. Proceeding of International Conference
on Machine Learning, ISAT-2008.
14-18 July, 2008 Las Vegas, USA// CSREA Press,
2008, p.835-841.
6.6. Кузнецов И.П., Сомин Н.В. Средства
настройки семантико-ориентированного
лингвистического процессора на выделение и
поиск объектов.
Сб. ИПИ РАН, Вып.18. 2008 г.,
стр. 119-143.
6.7. Кузнецов И.П. Объектно-ориентированная система, основанная на знаниях
в виде XML-представлений. Сб. ИПИ РАН, Вып.18. 2008 г., стр. 96-118.
6.8. Кузнецов И.П., Ефимов Д.А. Особенности извлечения знаний
семантико-ориентированным лингвистическим процессором Semantix.
Сб. Компьютерная лингвистика и интеллектуальные технологии. Выпуск 7 (14).
По материалам конференции «Диалог 2008». М. РГГУ, 2008 г., стр. 281-291.
6.9. Кузнецов И.П., Ефимов Д.А. Клиент-серверная система обработки текстов на
основе семантического анализа и технологии баз знаний.
Сб. «Информатизация и связь». Специальный выпуск. М. ЦИТиС. 2008 г., стр. 59-61.