Методы автоматического извлечения из текстов имплицитной информации

Разработка и исследование методов автоматического извлечения из естественно-языковых текстов имплицитной информации об объектах, признаках и связях с ее отображением на структуры знаний.

(2010 -2012 г.)

Шифр «Лингво-ИИ»

Научный руководитель темы - гл.н.с., д.т.н., проф. Кузнецов Игорь Петрович

1. Назначение проекта «Лингво-ИИ»

Одной из важнейших задач в области когнитивных технологий является автоматическое извлечение знаний из текстов естественного языка (ЕЯ). Следует учитывать, что большое количество нужной для пользователя информации дается в текстах ЕЯ в скрытом виде, которую нужно извлекать. Помимо этого, имеет место множество неопределенностей, требующих разрешения. Важной научной и практической проблемой является представление такой информации в явном виде: преобразование имплицитной информации в эксплицитную с ее последующей обработкой и использованием для решения пользовательских задач.

Проект является логическим продолжением исследований, имеющих целью создание нового класса интеллектуальных систем, основанных на автоматической формализации текстов ЕЯ с формированием структур знаний для решения логико-аналитических задач: проекты ИПИ РАН Криминал, Аналитик, Поток, Лингвопроцессор. В рамках этих проектов созданы новые методы формализации и извлечения знаний из текстов ЕЯ, разработан уникальный семантико-ориентированный лингвистический процессор (ЛП), выделяющий информацию для пользователей, которые интересуются конкретными объектами, их свойствами и связями (другое название – объектно-ориентированный ЛП). Такая информация отображается на структуры знаний. Проект «Лингво-ИИ» предполагает дальнейшее развитие таких процессоров, совершенствование средств автоматизации для более точного и полного выявления объектов, их признаков и связей, устранения неопределенностей на всех уровнях формализации, дополнения структур знаний новой информацией, отсутствующей или заданной в неявном виде.

2. Цели проекта «Лингво-ИИ».

Проект направлен на разработку методик извлечения имплицитной информации, основанных на логическом выводе и преобразовании структур знаний. Такая разработка связана с совершенствованием существующих методик устранения неопределенностей при работе ЛП. Понятие «имплицитный» (в переводе означающее «скрытый», «подразумеваемый», «неявный») рассматривается с точки зрения дополнения и уточнения информационных объектов и связей, которые выделяются ЛП в процессе формализации текстов ЕЯ. В контексте настоящей темы это понятие связано с рядом достаточно сложных лингвистических задач: выявлением подразумеваемых объектов, идентификацией на основе анафорических ссылок, разрешением различного рода полисемии и неопределенностей и др. Для этих задач требуются нетривиальные механизмы принятия решений и соответствующая техника логического вывода. Их наличие существенно повышает научный уровень исследований в области создания ЛП.

Отметим, что в рамках упомянутых проектов были разработаны методики решения ряда таких задач, качество которых зависело от требований к системе. На данном этапе необходимо обобщение результатов и разработка более совершенных методик на основе исследования и оценки работы различных компонент ЛП в достаточно разнородных областях: «Криминалистика» (анализ сводок происшествий с их классификацией, выявлением роли фигурантов и др.), «Резюме» (задачи кадровых агентств, выявление полной информации о лицах но основе резюме, написанных в свободой форме), «Терроризм» (анализ СМИ, обработка документов о террористической деятельности с выявлением групп, лиц, организаций и др.), «Памятники» (анализ документов о памятниках культуры). Такие исследования проводятся с целью совершенствования алгоритмов ЛП и его лингвистических знаний.

Научная база проекта разработана в ИПИ РАН и включает в себя следующие компоненты:

- расширенные семантические сети (РСС) для представления предметных знаний,

- инструментальная среда ДЕКЛ для их обработки,

- морфологический анализ на основе обобщенных окончаний,

- специальные правила и онтологии на РСС, образующие лингвистические знания и служащие для управления синтактико-семантическим анализом в процессе формализации текстов ЕЯ.

3. Предмет автоматизации

Предметом автоматизации является процедура извлечения информационных объектов и связей из текстов ЕЯ. Требуются исследования для повышения качества такого извлечения с учетом особенностей корпусов текстов и задач пользователя.

Лингвистический процессор (ЛП) формирует предметные знания, структура которых определяется задачами пользователя. Качество ЛП в значительной степени определяется его избирательностью в плане выделения объектов, признаков и связей, которые должны быть в предметных знаниях. Здесь следует учитывать сложность конструкций ЕЯ и наличие различного рода имплицитной информации, извлечение которой требует специальных методик логического вывода, экспертных решений, обеспечивающих постоянное пополнения и уточнения информации.

В рамках данного проекта методики представляются в виде правил, одни из которых устраняют неоднозначности на различных уровнях формализации, другие дополняют лингвистические знания, а третьи используются для формирования результатов прикладных систем. На данном этапе предполагается разработка и совершенствование методик анализа, используемых в ЛП на всех уровнях формализации текстов ЕЯ. Имеется в виду лексико-морфологический анализ, синтактико-семантический анализ, а также решения, принимаемые на уровне структур знаний - для пополнения информации и формирования результатов.

4. Основные компоненты лингвистического процессора

Ядро лингвистического процессора (ЛП) включает в себя три основных блока:

4.1. Блок лексико-морфологического анализа преобразует текст в семантическую сеть, представляющую пространственную структуру текста (ПС-текста). В этой сети все русские слова преобразованы в каноническую (нормальную) форму, представлен порядок расположения слов и других знаков, а также начало и конец каждого предложения. Для каждого слова указаны его морфологические характеристики (часть речи, падеж и др.) и лексические признаки (слово с большой буквы, большими буквами, с точкой на конце и др.). Даются варианты его разбора. Этот блок управляется специальным файлом, определяющим преобразования слов (синонимичные, выделение терминов, удаление незначимых слов и др.) и набором предметных каталогов (каталог стран, городов, профессий и др.) для придания словам дополнительных семантических признаков.

От качества работы этого блока зависит работа всего ЛП. Наличие ошибок или неопределенностей в ПС-текста затрудняет последующий анализ и усложняет работу других компонент ЛП.

4.2. Блок синтактико-семантического анализа преобразует ПС-текста в структуры знаний, в которых в явном виде присутствуют выделенные объекты, их признаки и связи. Такие структуры называются семантическими (СС-текста). Блок реализован в виде ДЕКЛ-программ и управляется лингвистическими знаниями, представленными в виде семантических сетей (РСС). Лингвистические знания состоят из правил выделения объектов и онтологий в виде РСС. Правила имеют достаточно сложную структуру. Левая часть составляется из позиций, которых с помощью И-ИЛИ графа признаков задаются допустимые слова. При этом различаются обязательные и факультативные позиции, задается допустимый контекст. В правой части задается формируемый фрагмент. Ошибки или потери на уровне СС-текста снижают качество результатов при работе блока принятия решений.

4.3. Блок принятия решений состоит из ДЕКЛ-программ, которые на основе структур знаний (СС-текста) выполняют различные функции: обеспечивают пополнение знаний новыми признаками и фрагментами, принятие экспертных решений, формирование конечных результатов.

5. Полученные результаты (за 2010 -2011г.)

В рамках проекта «Лингво-ИИ» на основе анализа корпусов текстов и используемых методов их формализации проведены следующие работы, связанные с совершенствованием средств анализа текстов на ЕЯ.

5.1. В плане совершенствования блока лексико-морфологического анализа. Разработаны методики (с доработкой соответствующих алгоритмов и программ) для устранения неопределенностей при следующих видах анализа:

- при разбиении текста на словоформы и предложения (неопределенности вызваны наличием в корпусах текстов лексем, содержащих буквы, цифры и разделители практически в произвольной последовательности) ;

- при присвоении словам морфологических и ряда семантических признаков за счет анализа составных частей словоформы (выделение фамилий);

- при ранжировании вариантов лексико-морфологического анализа (разрешение лексической полисемии);

- при присвоении словам семантических признаков на основе предметных каталогов (в случае наличия несколько вариантов такого присвоения, взятых из различных каталогов);

- при выделении объектов фиксированной структуры (адресов, е-майлов, имен сайтов и др.);

- при приведении выделенных объектов в стандартную форму (для адресов).

5.2. Разработаны и реализованы методики выявления объектов и их ролевых функций (потерпевший, преступник, террорист, сотрудник милиции и др.) по косвенным признакам и контексту. Проведены соответствующие исследований на корпусах текстов в областях «Криминалистика» и «Терроризм». Разработаны правила такого выявления в структуре лингвистических знаний блока синтактико-семантического анализа. Усовершенствованы компоненты этого блока для поддержки различных видов контекстного анализа.

5.3. Разработаны и реализованы методики выявления объектов, заданных в неявном виде, при отсутствии характеристических признаков объекта. Методики основаны на предположении о возможном их появлении. Созданы правила такого выявления в структуре лингвистических знаний блока синтактико-семантического анализа. Проведены исследования работоспособности правил в областях «Криминалистика», «Резюме».

5.4. Разработаны и реализованы методики выявления связей объектов путем предположения их наличия (например, если выявлена автомашина, то поиск ее обладателя и т.д.). Введены необходимые компоненты в блок синтактико-семантического анализа для поддержки правил такого выявления.

5.5. Разработаны методы идентификации объектов с учетом анафорических ссылок (местоимений) и их краткого описания. Созданы правил идентификации в структуре лингвистических знаний. Введены необходимые компоненты в блок синтактико-семантического анализа и предметные словари для поддержки этих правил.

6. Исследования и разработки, предполагаемые в 2012г.

6.1. Исследование явления переноса объектов (когда он отсутствует, но подразумевается) и возможности его реализации в рамках ЛП.

6.2. Разработка и реализация методик анализа происшествий и событий, представленных в виде структуры знаний (СС-текста), с выявлением их значимых признаков и особенностей, отсутствующих в тексте описания. Создание соответствующих ДЕКЛ-программ для блока принятия решений. Проверка их работоспособности на примере области «Криминалистика» - для соотнесения происшествия к определенным категориям по классификаторам криминальной милиции типа «Способ совершения преступления», «Характер преступления» и др.

6.3. Разработка и реализация методик выявления значимых признаков объектов на основе анализа СС-текста. Создание соответствующих ДЕКЛ-программ и их проверка на корпусе текстов в области «Памятники» - для дополнительного указания: «Кому посвящен памятник», «Кто автор», «Место расположения» и др. Эта информация зачастую задается в неявном виде.

6.4. Разработка экспертных систем, использующих структуры знаний для порождения новой информации об объектах. Создание соответствующей оболочки и ее отладка на текстах в области «Резюме» - для классификации организаций («Место учебы», «Место работы», «Курсы»), оценки степени знания языков и др.

6.5. Разработка методик классификации объектов по текстам их описания на примере распознавания профессиональной области лица по описанию его функциональных обязанностей (с формированием новых признаков, характеризующих данное лицо.) Создание соответствующих ДЕКЛ-программ и их проверка в области «Резюме».

6.6. Разработка обратного лингвистического процессора для выдачи объектов и результатов, представленных в виде РСС (в СС-текста), на ЕЯ. Разработка блока, обеспечивающего выдачу описаний объектов в нормальной форме (в ед. числе, им. падеже).

7. Публикации

     7.1. Кузнецов И.П., Сомин Н.В.  Особенности настройки объектно-ориентированного

 лингвистического процессора на тексты предметной области //

Сб. Системы и средства информатики. Вып.20. – М.: Наука. 2010. – С.124-146 .

    7.2. Кузнецов И.П., Сомин Н.В. Особенности лексико-морфологического анализа

 при извлечении информационных объектов и связей из текстов естественного языка //

Сб. Компьютерная лингвистика и интеллектуальные технологии. Выпуск 9 (16).

По материалам международной конференции «Диалог 2010». М. РГГУ. 2010 г. С. 254-264.

     7.3. Кузнецов И.П. Козеренко Е.Б., Мацкевич А.Г. Принципы организации

 объектно-ориентированных систем обработки неформализованной

 информации // «Искусственный интеллект». Журнал НАН Украины, 2010. Вып. 3. С. 227-237.

     7.4. Кузнецов И.П. Козеренко Е.Б., Мацкевич А.Г. Принципы организации

объектно-ориентированных систем обработки неформализованной информации //

Материалы международной конференции  «Искусственный интеллект.

 Интеллектуальные системы», ИИ-2010. Крым, Украина. 2010. Том 1. С. 205-210 .

     7.5. Кузнецов И.П. Сомин Н.В., Соловьева Н.С., Мацкевич А.Г., Николаев В.Г.

 Особенности работы одного класса лингвистических процессоров при извлечении

объектов и связей из документов на естественном языке» //

 Труды конференции, «Компьютерная  лингвистика», посвященной памяти Р.Г. Пиотровского, Минск 14-15 июня 2010.

7.6. Козеренко Е.Б., Кузнецов И.П. Когнитивно-лингвистические представления в системах обработки текстов // Сб. «Информатика и ее применение». 2010 г. Т. 4. Вып. 3. С. 69-76.

     7.7. Козеренко Е.Б., Кузнецов И.П. Эволюция лингво-семантических представлений

 в интеллектуальных системах на основе расширенных семантических сетей //

Сб. Компьютерная лингвистика и интеллектуальные технологии. Выпуск 9 (16).

По материалам международной конференции «Диалог 2010». М. РГГУ. 2010 г. С. 205-212.

7.8. Kuznetsov I.P., Kozerenko E.B., Matskevich A.G. Deep and Shallow Semantic presentations in Intelligent Fact Extractors // Proceedings of ICAI’2010 Las Vegas, USA, June 14-17, 2010, CRSEA Press, 2010.