Главная Страница > Проекты |
Разработка и исследование методов
автоматического извлечения из естественно-языковых текстов имплицитной
информации об объектах, признаках и связях с ее отображением на структуры
знаний.
(2010
-2012 г.)
Шифр «Лингво-ИИ»
Научный руководитель темы - гл.н.с., д.т.н., проф. Кузнецов Игорь Петрович
1.
Назначение проекта «Лингво-ИИ»
Одной из
важнейших задач в области когнитивных технологий является автоматическое
извлечение знаний из текстов естественного языка (ЕЯ). Следует
учитывать, что большое количество нужной для пользователя информации дается в
текстах ЕЯ в скрытом виде, которую нужно извлекать. Помимо этого, имеет место множество
неопределенностей, требующих разрешения. Важной научной и практической
проблемой является представление такой
информации в явном виде: преобразование имплицитной информации в эксплицитную с
ее последующей обработкой и использованием для решения пользовательских задач.
Проект является логическим продолжением
исследований, имеющих целью создание нового класса интеллектуальных систем,
основанных на автоматической формализации текстов ЕЯ с формированием структур
знаний для решения логико-аналитических задач: проекты ИПИ РАН Криминал,
Аналитик, Поток, Лингвопроцессор. В рамках этих проектов созданы новые методы
формализации и извлечения знаний из текстов ЕЯ, разработан уникальный семантико-ориентированный
лингвистический процессор (ЛП), выделяющий информацию для
пользователей, которые интересуются конкретными объектами, их свойствами и
связями (другое название – объектно-ориентированный ЛП). Такая информация отображается на структуры
знаний. Проект «Лингво-ИИ» предполагает
дальнейшее развитие таких процессоров, совершенствование средств автоматизации
для более точного и полного выявления объектов, их признаков и связей,
устранения неопределенностей на всех уровнях формализации, дополнения структур знаний
новой информацией, отсутствующей или заданной в неявном виде.
2.
Цели проекта «Лингво-ИИ».
Проект направлен на разработку методик
извлечения имплицитной информации, основанных на логическом выводе и
преобразовании структур знаний. Такая разработка связана с совершенствованием
существующих методик устранения неопределенностей при работе ЛП. Понятие «имплицитный»
(в переводе означающее «скрытый», «подразумеваемый», «неявный») рассматривается с точки зрения дополнения и уточнения
информационных объектов и связей, которые выделяются ЛП в процессе формализации
текстов ЕЯ. В контексте настоящей темы это понятие связано с рядом достаточно
сложных лингвистических задач: выявлением подразумеваемых объектов,
идентификацией на основе анафорических ссылок, разрешением различного рода
полисемии и неопределенностей и др. Для этих
задач требуются нетривиальные механизмы принятия решений и соответствующая
техника логического вывода. Их
наличие существенно повышает научный уровень исследований в области создания
ЛП.
Отметим,
что в рамках упомянутых проектов были разработаны методики решения ряда таких
задач, качество которых зависело от требований к системе. На данном этапе необходимо
обобщение результатов и разработка более совершенных методик на основе
исследования и оценки работы различных компонент ЛП в достаточно разнородных
областях: «Криминалистика» (анализ сводок происшествий с их классификацией,
выявлением роли фигурантов и др.), «Резюме» (задачи кадровых агентств,
выявление полной информации о лицах но основе резюме, написанных в свободой
форме), «Терроризм» (анализ СМИ, обработка документов о террористической
деятельности с выявлением групп, лиц, организаций и др.), «Памятники» (анализ
документов о памятниках культуры). Такие исследования проводятся с целью
совершенствования алгоритмов ЛП и его лингвистических знаний.
Научная база проекта разработана в ИПИ РАН и включает в себя следующие
компоненты:
- расширенные
семантические сети (РСС) для представления предметных знаний,
- инструментальная
среда ДЕКЛ для их обработки,
- морфологический
анализ на основе обобщенных окончаний,
- специальные
правила и онтологии на РСС, образующие лингвистические знания и служащие для
управления синтактико-семантическим анализом в процессе формализации текстов
ЕЯ.
3. Предмет автоматизации
Предметом автоматизации является процедура
извлечения информационных объектов и
связей из текстов ЕЯ. Требуются исследования для повышения качества такого
извлечения с учетом особенностей корпусов текстов и задач пользователя.
Лингвистический процессор (ЛП) формирует
предметные знания, структура которых определяется задачами пользователя. Качество
ЛП в значительной степени определяется его избирательностью в плане выделения
объектов, признаков и связей, которые должны быть в предметных знаниях. Здесь
следует учитывать сложность конструкций ЕЯ и наличие различного рода
имплицитной информации, извлечение которой требует специальных методик
логического вывода, экспертных решений, обеспечивающих постоянное пополнения и
уточнения информации.
В рамках данного проекта методики
представляются в виде правил, одни из которых устраняют неоднозначности на
различных уровнях формализации, другие дополняют лингвистические знания, а
третьи используются для формирования результатов прикладных систем. На данном этапе предполагается разработка и
совершенствование методик анализа,
используемых в ЛП на всех уровнях формализации текстов ЕЯ. Имеется в виду
лексико-морфологический анализ, синтактико-семантический анализ, а также решения,
принимаемые на уровне структур знаний - для
пополнения информации и формирования результатов.
4. Основные компоненты лингвистического процессора
Ядро лингвистического процессора (ЛП)
включает в себя три основных блока:
4.1. Блок лексико-морфологического анализа
преобразует текст в семантическую сеть, представляющую пространственную структуру текста
(ПС-текста). В этой сети все русские слова преобразованы в каноническую (нормальную)
форму, представлен порядок расположения слов и других знаков, а также начало и
конец каждого предложения. Для каждого слова указаны его морфологические
характеристики (часть речи, падеж и др.) и лексические признаки (слово с
большой буквы, большими буквами, с точкой на конце и др.). Даются варианты его разбора. Этот блок управляется
специальным файлом, определяющим преобразования слов (синонимичные, выделение
терминов, удаление незначимых слов и др.) и набором предметных каталогов
(каталог стран, городов, профессий и др.) для придания словам дополнительных
семантических признаков.
От качества работы этого блока зависит
работа всего ЛП. Наличие ошибок или неопределенностей в ПС-текста затрудняет
последующий анализ и усложняет работу других компонент ЛП.
4.2. Блок синтактико-семантического анализа
преобразует ПС-текста в структуры знаний, в которых в явном виде присутствуют
выделенные объекты, их признаки и связи. Такие структуры называются семантическими
(СС-текста). Блок реализован в виде ДЕКЛ-программ и управляется лингвистическими
знаниями, представленными в виде семантических сетей (РСС). Лингвистические знания
состоят из правил выделения объектов и онтологий в виде РСС. Правила имеют
достаточно сложную структуру. Левая часть составляется из позиций, которых с
помощью И-ИЛИ графа признаков задаются допустимые слова. При этом различаются
обязательные и факультативные позиции, задается допустимый контекст. В правой
части задается формируемый фрагмент. Ошибки или потери на уровне СС-текста
снижают качество результатов при работе блока принятия решений.
4.3. Блок принятия решений
состоит из ДЕКЛ-программ, которые на основе структур знаний (СС-текста)
выполняют различные функции: обеспечивают пополнение знаний новыми признаками и
фрагментами, принятие экспертных решений, формирование конечных результатов.
5. Полученные результаты (за 2010 -2011г.)
В рамках проекта «Лингво-ИИ» на основе
анализа корпусов текстов и используемых методов их формализации проведены следующие
работы, связанные с совершенствованием средств анализа текстов на ЕЯ.
5.1.
В плане совершенствования блока
лексико-морфологического анализа. Разработаны методики (с доработкой
соответствующих алгоритмов и программ) для
устранения неопределенностей при следующих видах анализа:
- при разбиении
текста на словоформы и предложения (неопределенности вызваны наличием в корпусах текстов лексем, содержащих
буквы, цифры и разделители практически в произвольной последовательности) ;
- при присвоении
словам морфологических и ряда семантических признаков за счет анализа составных
частей словоформы (выделение фамилий);
- при
ранжировании вариантов лексико-морфологического анализа (разрешение лексической полисемии);
- при присвоении
словам семантических признаков на основе предметных каталогов (в случае наличия
несколько вариантов такого присвоения, взятых из различных каталогов);
- при выделении
объектов фиксированной структуры (адресов, е-майлов, имен сайтов и др.);
- при приведении выделенных объектов в
стандартную форму (для адресов).
5.2. Разработаны и реализованы методики выявления объектов и их
ролевых функций (потерпевший, преступник, террорист, сотрудник милиции и др.) по
косвенным признакам и контексту. Проведены соответствующие исследований на
корпусах текстов в областях «Криминалистика» и «Терроризм». Разработаны правила
такого выявления в структуре лингвистических знаний блока
синтактико-семантического анализа. Усовершенствованы компоненты этого блока для
поддержки различных видов контекстного анализа.
5.3. Разработаны и реализованы методики выявления объектов, заданных
в неявном виде, при отсутствии характеристических признаков объекта. Методики
основаны на предположении о возможном их появлении. Созданы правила такого
выявления в структуре лингвистических знаний блока синтактико-семантического
анализа. Проведены исследования работоспособности правил в областях
«Криминалистика», «Резюме».
5.4. Разработаны и реализованы методики выявления связей объектов
путем предположения их наличия (например, если выявлена автомашина, то поиск ее
обладателя и т.д.). Введены необходимые компоненты в блок
синтактико-семантического анализа для поддержки правил такого выявления.
5.5. Разработаны методы идентификации объектов с учетом
анафорических ссылок (местоимений) и их краткого описания. Созданы правил
идентификации в структуре лингвистических знаний. Введены необходимые
компоненты в блок синтактико-семантического анализа и предметные словари для
поддержки этих правил.
6. Исследования и разработки, предполагаемые в 2012г.
6.1. Исследование явления переноса объектов (когда он отсутствует,
но подразумевается) и возможности его реализации в рамках ЛП.
6.2. Разработка и реализация методик анализа происшествий и событий,
представленных в виде структуры знаний (СС-текста), с выявлением их значимых
признаков и особенностей, отсутствующих в тексте описания. Создание
соответствующих ДЕКЛ-программ для блока принятия решений. Проверка их работоспособности на примере
области «Криминалистика» - для соотнесения происшествия к определенным
категориям по классификаторам криминальной милиции типа «Способ совершения
преступления», «Характер преступления» и др.
6.3. Разработка и реализация методик выявления значимых признаков
объектов на основе анализа СС-текста. Создание соответствующих ДЕКЛ-программ и
их проверка на корпусе текстов в области «Памятники» - для дополнительного
указания: «Кому посвящен памятник», «Кто автор», «Место расположения» и др. Эта
информация зачастую задается в неявном виде.
6.4. Разработка экспертных систем, использующих структуры знаний для
порождения новой информации об объектах. Создание соответствующей оболочки и ее
отладка на текстах в области «Резюме» - для классификации организаций («Место
учебы», «Место работы», «Курсы»), оценки степени знания языков и др.
6.5. Разработка методик классификации объектов по текстам их
описания на примере распознавания профессиональной области лица по описанию его
функциональных обязанностей (с формированием новых признаков, характеризующих
данное лицо.) Создание соответствующих ДЕКЛ-программ и их проверка в области
«Резюме».
6.6. Разработка обратного лингвистического процессора для выдачи объектов
и результатов, представленных в виде РСС (в СС-текста), на ЕЯ. Разработка
блока, обеспечивающего выдачу описаний объектов в нормальной форме (в ед.
числе, им. падеже).
7. Публикации
7.1. Кузнецов И.П., Сомин Н.В. Особенности настройки объектно-ориентированного
лингвистического процессора на тексты предметной области //
Сб. Системы и средства информатики. Вып.20. – М.: Наука. 2010. – С.124-146 .
7.2. Кузнецов И.П., Сомин Н.В. Особенности лексико-морфологического анализа
при извлечении информационных объектов и связей из текстов естественного языка //
Сб. Компьютерная лингвистика и интеллектуальные технологии. Выпуск 9 (16).
По материалам международной конференции «Диалог 2010». М. РГГУ. 2010 г. С. 254-264.
7.3. Кузнецов И.П. Козеренко Е.Б., Мацкевич А.Г. Принципы организации
объектно-ориентированных систем обработки неформализованной
информации // «Искусственный интеллект». Журнал НАН Украины, 2010. Вып. 3. С. 227-237.
7.4. Кузнецов И.П. Козеренко Е.Б., Мацкевич А.Г. Принципы организации
объектно-ориентированных систем обработки неформализованной информации //
Материалы международной конференции «Искусственный интеллект.
Интеллектуальные системы», ИИ-2010. Крым, Украина. 2010. Том 1. С. 205-210 .
7.5. Кузнецов И.П. Сомин Н.В., Соловьева Н.С., Мацкевич А.Г., Николаев В.Г.
Особенности работы одного класса лингвистических процессоров при извлечении
объектов и связей из документов на естественном языке» //
Труды конференции, «Компьютерная лингвистика», посвященной памяти Р.Г. Пиотровского, Минск 14-15 июня 2010.
7.6. Козеренко Е.Б., Кузнецов И.П. Когнитивно-лингвистические представления в системах
обработки текстов // Сб. «Информатика и ее применение». 2010 г. Т. 4. Вып.
3. С. 69-76.
7.7. Козеренко Е.Б., Кузнецов И.П. Эволюция лингво-семантических представлений
в интеллектуальных системах на основе расширенных семантических сетей //
Сб. Компьютерная лингвистика и интеллектуальные технологии. Выпуск 9 (16).
По материалам международной конференции «Диалог 2010». М. РГГУ. 2010 г. С. 205-212.
7.8. Kuznetsov I.P., Kozerenko E.B.,
Matskevich A.G. Deep and Shallow Semantic presentations in Intelligent
Fact Extractors // Proceedings of ICAI’2010 Las Vegas, USA, June 14-17, 2010, CRSEA
Press, 2010.