Главная Страница > Проекты

Методы и средства повышения качества семантико-ориентированного

лингвистического процессора, преобразующего неформализованную

информацию в структуры знаний

                                                     (2008-2009 г.)

                                     Шифр «ЛИНГВОПРОЦЕССОР»

                             

                                     Научный руководитель  д.т.н., проф. Кузнецов Игорь Петрович

 

  

     1. Назначение проекта <ЛИНГВОПРОЦЕССОР>

  

     Задача исходит из текущей потребности многих служб и организаций в автоматической формализации больших объемов неструктурированной информации.

     Большинству пользователей, наделенных определенными служебными обязанностями, необходима конкретная информация. Например, сотрудники информационно-аналитических подразделений выбирают из СМИ информацию об определенного рода событиях, катастрофах, террористических актах, персоналиях и др. Следователю важны фигуранты, места их жительства, телефоны, криминальные события, даты и т.п.

     Для обеспечения подобных пользователей нужной информацией в рамках проектов ИПИ РАН разработаны семантико-ориентированные лингвистичекие процессоры АНАЛИТИК, ДИСКУРС, ПОТОК, обеспечивающие автоматическое извлечение объектов из текстов с формированием Базы Знаний (БЗ).

    Однако, такая разработка – это трудоемкий процесс, требующий постоянной работы квалифицированного специалиста по созданию новых лингвистических знаний и их корректировки. В связи с этим актуальной задачей является дальнейшее совершенствование этих процессоров с разработкой методик и средств быстрой подстройки процессора к требованиям пользователя – с учётом его предметной область и корпусов интересующих его текстов.

  

    2. Цели проекта <ЛИНГВОПРОЦЕССОР>.

  

     Цель проекта  - развитие методов и средств автоматической формализации текстов естественного языка (имеется в виду выделение информационных объектов и их связей) с возможностью управления этим процессом со стороны специалиста.  Таким специалистом может быть пользователь, обученный методикам работы с соответствующими средствами и инструментариями.

     Научная база проекта: расширенные семантические сети (РСС) для представления сложных видов знаний, инструментальная среда ДЕКЛ для обработки структур знаний, сетевые позиционные грамматики, онтологии в виде РСС, морфологический анализ на основе обобщенных окончаний. На этой основе в ИПИ РАН разработаны семантико-ориентированные лингвистические процессоры. Их особеннность - в переносе сложных этапов лингвистического анализа на уровень обработки структур знаний. Сам процессор реализован средствами языка ДЕКЛ и управляется лингвистическими знаниями в виде РСС, состоящих из правил выделения объектов (реализующих позиционные грамматики). Таким образом реализованы сложные виды синтактико-семантического анализа и идентификации.

   Проект <ЛИНГВОПРОЦЕССОР> предполагает развитие методик организации лингвистических знаний: правил выделения объектов и средств их модификации с целью упрощения процедуры настройки лингвистического процессора на предметную область.

                   

    

     3. Краткие сведения о средствах автоматизации

                  

     Качество лингвистического процесора определяется рядом факторов.

     Во-первых, это возможность выделения объектов и связей. Каждая категория пользователей работает со своими объектами, где требуется автоматическое выделение интересующих его объектов и связей. Учесть все варианты выделения объектов при создании соответствующих правил даже для небольших корпусов текстов не представляется возможным. В связи с этим требуется участие квалифицированного человека, который должен иметь соответствующий инструментарий, облегчающий процесс создания этих правил.

     Во-вторых, важный фактор - это избирательность правил и процедур идентификации: коэффициет шумов и потерь. Под шумами понимается наличие лишних слов в объектах. Потери - это когда объект не выявлен или выявлен частично (в тексте есть слова, которые не вошли в объект). Шумы и потери существенно влияют на качество работы лингвистического процессора. Опыт показывает, что с увеличением количества выделяемых объектов возникают трудности, связанные с "коллизией" правил выделения: одни правила могут захватывать слова, относящиеся к другим объектам. Это один из источников шумов и потерь.

     Отметим, что в связи со сложностью процессов анализа текстов настройка должна осуществляться через лингвистические знания (ЛЗ). Последние должны иметь все средства для повышения избирательности правил и необходимые интерфейсные компоненты для их создания и корректировки. В идеале с помощью ЛЗ должна обеспечиваться настройка на особенности языка - признаки, которые даются словам, на типовые конструкции и формы языка. Лингвистический процессор должен быть в значительной степени индифирентен к языку. Его задача – поддерживать ЛЗ, в том числе, процесс применения правил.

     Третий фактор - возможность настройки на новые корпуса текстов, в  которых могут быть ранее не учтенные словосочетания и конструкции. Отсюда следует необходимость в постоянной работе специалиста по выявлению в текстах все новых источников шумов и потерь. Для такой работы требуются средства визуализации выделенных объектов для нахождения в них ошибок, а также средства быстрого нахождения текста и его компонент, на базе которых был построен объект. Помимо этого, требуется визуализация процесса применения правил для быстрого нахождения тех из них, которые требуют корректировки.

      Методы и средства автоматизации, разработанные в рамках проекта <ЛИНГВОПРОЦЕССОР>, обеспечивают управление основными компонентами лингвистического процесссора, определяющими процедуру анализа текстов. Рассмотрим эти компоненты.

    

     4. Основные компоненты лингвистического процессора

    

     Ядро лингвистического процессора (ЛП) включает в себя два основных блока, определяющих анализ текста: блок морфологического анализа и блок синтактико-семантического анализа.

    

     4.1. Блок морфологического анализа.

Этот блок преобразует текст в семантическую сеть, представляющую пространственную структуру текста (ПС). В этой сети все русские слова преобразованы в каноническую (нормальную) форму. В сети представлен порядок расположения слов и других знаков, а также начало и конец каждого предложения. Для каждого слова указаны его морфологические характеристики (часть речи, падеж и др.) и чисто формальные признаки: слово с большой буквы, большими буквами, с точкой на конце и др.

     Блок морфологического анализа управляется следующим образом:

     - Специальным файлом MORF_PAR.MRF, определяющим преобразования слов (синонимичные, выделение терминов, удаление незначимых слов), выделение начала и конца предложения, а также признаки, которые должны быть в ПС.

     - Набором предметных каталогов (каталог стран, городов, профессий и др.), благодаря которым словам даются дополнительные семантические признаки (например, что данное слово - город).

    

     4.2. Блок синтактико-семантического анализа.

Этот блок преобразует сеть ПС в структуры знаний, в которых в явном виде присутствуют выделенные объекты и их связи. Такие структуры называются семантическими (СС). Блок реализован в виде ДЕКЛ-программы и управляется лингвистическими знаниями (ЛЗ). представленными в виде семантических сетей (РСС). Знания ЛЗ состоят из правил выделения объектов и онтологий в виде РСС.

                                                               

    5.  Средства настройки

 

    В рамках проекта <ЛИНГВОПРОЦЕССОР>) проведены следующие работы, связанные с созданием средств настройки лингвистического процессора:

    5.1. Разработана инструментальная среда для конструирования и корректировки ДЕКЛ-программ, которые являются основой лингвистического процессора.

    5.2. Разработаны методики создания предметных каталогов и средств их визуализации. Разработана интерфейсная компонента, позволяющая обученному пользователю (в дальнейшем – пользователю) выбирать нужный каталог и вносить необходимые изменения. Эти средства обеспечивают управление блоком морфологического анализа, корректировку его работы.

    5.3. Разработаны средства выделения и визуализации компонент лингвистических знаний, обеспечивающих  пользователю возможность  самостоятельного выбора набора интересующих его объектов и глубины анализа текста. Для этого, во-первых, введена блочная организация лингвистических знаний с их привязкой к типу выявляемых объектов и процессам идентификации. И во-вторых, разработана интерфейсная компонента, позволяющая пользователю в удобных формах производить выбор набора интересующих его объектов. Именно таким образом обеспечивается внешняя настройка на предметную область пользователя.

    5.4. Разработаны методики и алгоритмы для визуализации (трассировки) процесса применения правил при выявлении объектов. Обеспечивается визуализация процесса анализа текста, которая позволяет выявлять случаи коллизии и некорректной работы правил: когда правило захватывает лишнее слово (и вставляет его в объект) или пропускает нужное слово.

    5.5. Разработаны методики и алгоритмы для визуализации процесса идентификации объектов и установления связей, в том числе, за счет анализа глагольных форм  (допонительные возможности трассировки).

                  

6. Публикации  
  6.1. Н. В. Сомин, И.П. Кузнецов, А.Г. Мацкевич, В.Г. Николаев. Методы и 
средства настройки морфо-лексического анализатора на предметную область // 
Системы и средства информатики. Вып.19. – М.: Наука, 2009. – С.97-118.                                                                
  6.2. Kuznetsov, I.P., Efimov D.A., Kozerenko E.B. Tools for Tuning the Semantix Processor
 to Application Areas // Proceedings of ICAI'09, Vol. I. WORLDCOMP'09, July 13-16, 2009, 
Las Vegas, Nevada, USA. - CRSEA Press, USA, 2009. P. 467-472. 
 6.3. Kuznetsov I.P., Kozerenko E.B., Kuznetsov K.I., Timonina N.O. Intelligent System 
for Entities Extraction (ISEE) from Natural Language Texts // 
Proceedings of the International Workshop on Conceptual Structures for Extracting 
Natural Language Semantics - Sense'09, Uta Priss, Galia Angelova (Eds.), 
at the 17 International Conference on Conceptual Structures (ICCS'09), 
University Higher School of Economics, Moscow, Russia, 2009. P. 17-25.
  6.4. Кузнецов И.П., Ефимов Д.А. Средства настройки процессора Semantix на 
предметную область.  Сб. Компьютерная лингвистика и интеллектуальные 
технологии. Выпуск 8 (15). По материалам конференции «Диалог 2009». 
М. РГГУ, 2009 г., стр. 262-270. .

6.5. Kuznetsov I.P., Kozerenko E.B. Linguistic Рrocessor “Semantix” for Knowledge

extraction from natural texts  in Russia and English. Proceeding of International Conference

 on Machine Learning, ISAT-2008. 14-18 July, 2008 Las Vegas, USA// CSREA Press,

2008, p.835-841.

 6.6. Кузнецов И.П., Сомин Н.В. Средства настройки семантико-ориентированного

 лингвистического процессора на выделение и поиск объектов.

Сб. ИПИ РАН, Вып.18. 2008 г., стр. 119-143.

   6.7. Кузнецов И.П. Объектно-ориентированная система, основанная на знаниях 
в виде XML-представлений. Сб. ИПИ РАН, Вып.18. 2008 г., стр. 96-118.
    6.8. Кузнецов И.П., Ефимов Д.А. Особенности извлечения знаний 
семантико-ориентированным лингвистическим процессором Semantix. 
 Сб. Компьютерная лингвистика и интеллектуальные технологии. Выпуск 7 (14). 
По материалам конференции «Диалог 2008». М. РГГУ, 2008 г., стр. 281-291.
    6.9. Кузнецов И.П., Ефимов Д.А. Клиент-серверная система обработки текстов на 
основе семантического анализа и технологии баз знаний.
 Сб. «Информатизация и связь». Специальный выпуск. М. ЦИТиС. 2008 г., стр. 59-61.