Главная Страница > Проекты

 

Разработка и исследование методов автоматического извлечения из естественно-языковых текстов имплицитной информации об объектах, признаках и связях с ее отображением на структуры знаний.

                                                   (2010 -2012 г.)                  

                                              Шифр  «Лингво-ИИ»

 

            Научный руководитель темы - гл.н.с.,  д.т.н., проф. Кузнецов Игорь Петрович 

  

    1. Назначение проекта «Лингво-ИИ»

 

    Одной из  важнейших задач в области когнитивных технологий является автоматическое извлечение знаний из текстов естественного языка (ЕЯ). Следует учитывать, что большое количество нужной для пользователя информации дается в текстах ЕЯ в скрытом виде, которую нужно извлекать.  Помимо этого, имеет место множество неопределенностей, требующих разрешения. Важной научной и практической проблемой является  представление такой информации в явном виде: преобразование имплицитной информации в эксплицитную с ее последующей обработкой и использованием для решения пользовательских задач. 

    Проект является логическим продолжением исследований, имеющих целью создание нового класса интеллектуальных систем, основанных на автоматической формализации текстов ЕЯ с формированием структур знаний для решения логико-аналитических задач: проекты ИПИ РАН Криминал, Аналитик, Поток, Лингвопроцессор. В рамках этих проектов созданы новые методы формализации и извлечения знаний из текстов ЕЯ, разработан уникальный семантико-ориентированный лингвистический процессор (ЛП), выделяющий информацию для пользователей, которые интересуются конкретными объектами, их свойствами и связями (другое название – объектно-ориентированный ЛП).  Такая информация отображается на структуры знаний.  Проект «Лингво-ИИ» предполагает дальнейшее развитие таких процессоров, совершенствование средств автоматизации для более точного и полного выявления объектов, их признаков и связей, устранения неопределенностей на всех уровнях формализации, дополнения структур знаний новой информацией, отсутствующей или заданной в неявном виде. 

    

    2. Цели проекта «Лингво-ИИ».

  

   Проект направлен на разработку методик извлечения имплицитной информации, основанных на логическом выводе и преобразовании структур знаний. Такая разработка связана с совершенствованием существующих методик устранения неопределенностей при работе ЛП. Понятие «имплицитный» (в переводе означающее «скрытый», «подразумеваемый», «неявный») рассматривается с точки зрения дополнения и уточнения информационных объектов и связей, которые выделяются ЛП в процессе формализации текстов ЕЯ. В контексте настоящей темы это понятие связано с рядом достаточно сложных лингвистических задач: выявлением подразумеваемых объектов, идентификацией на основе анафорических ссылок, разрешением различного рода полисемии и неопределенностей и др.  Для этих задач требуются нетривиальные механизмы принятия решений и соответствующая техника  логического вывода. Их наличие существенно повышает научный уровень исследований в области создания ЛП.

       Отметим, что в рамках упомянутых проектов были разработаны методики решения ряда таких задач, качество которых зависело от требований к системе. На данном этапе необходимо обобщение результатов и разработка более совершенных методик на основе исследования и оценки работы различных компонент ЛП в достаточно разнородных областях: «Криминалистика» (анализ сводок происшествий с их классификацией, выявлением роли фигурантов и др.), «Резюме» (задачи кадровых агентств, выявление полной информации о лицах но основе резюме, написанных в свободой форме), «Терроризм» (анализ СМИ, обработка документов о террористической деятельности с выявлением групп, лиц, организаций и др.), «Памятники» (анализ документов о памятниках культуры). Такие исследования проводятся с целью совершенствования алгоритмов ЛП и его лингвистических знаний.

    Научная база проекта разработана в ИПИ РАН и включает в себя следующие компоненты:

- расширенные семантические сети (РСС) для представления предметных знаний,

- инструментальная среда ДЕКЛ для их обработки,

- морфологический анализ на основе обобщенных окончаний,

- специальные правила и онтологии на РСС, образующие лингвистические знания и служащие для управления синтактико-семантическим анализом в процессе формализации текстов ЕЯ.

                       

   3. Предмет автоматизации

  

   Предметом автоматизации является процедура извлечения информационных объектов  и связей из текстов ЕЯ. Требуются исследования для повышения качества такого извлечения с учетом особенностей корпусов текстов и задач пользователя.                

   Лингвистический процессор (ЛП) формирует предметные знания, структура которых определяется задачами пользователя. Качество ЛП в значительной степени определяется его избирательностью в плане выделения объектов, признаков и связей, которые должны быть в предметных знаниях. Здесь следует учитывать сложность конструкций ЕЯ и наличие различного рода имплицитной информации, извлечение которой требует специальных методик логического вывода, экспертных решений, обеспечивающих постоянное пополнения и уточнения информации.

   В рамках данного проекта методики представляются в виде правил, одни из которых устраняют неоднозначности на различных уровнях формализации, другие дополняют лингвистические знания, а третьи используются для формирования результатов прикладных систем.  На данном этапе предполагается разработка и совершенствование  методик анализа, используемых в ЛП на всех уровнях формализации текстов ЕЯ. Имеется в виду лексико-морфологический анализ, синтактико-семантический анализ, а также решения, принимаемые на уровне структур знаний  - для пополнения информации и формирования результатов.    

 

        

   4. Основные компоненты лингвистического процессора

    

   Ядро лингвистического процессора (ЛП) включает в себя три основных блока:

    

   4.1. Блок лексико-морфологического анализа преобразует текст в семантическую сеть, представляющую пространственную структуру текста (ПС-текста). В этой сети все русские слова преобразованы в каноническую (нормальную) форму, представлен порядок расположения слов и других знаков, а также начало и конец каждого предложения. Для каждого слова указаны его морфологические характеристики (часть речи, падеж и др.) и лексические признаки (слово с большой буквы, большими буквами, с точкой на конце и др.).  Даются варианты его разбора. Этот блок управляется специальным файлом, определяющим преобразования слов (синонимичные, выделение терминов, удаление незначимых слов и др.) и набором предметных каталогов (каталог стран, городов, профессий и др.) для придания словам дополнительных семантических признаков.

    От качества работы этого блока зависит работа всего ЛП. Наличие ошибок или неопределенностей в ПС-текста затрудняет последующий анализ и усложняет работу других компонент ЛП.       

  4.2. Блок синтактико-семантического анализа преобразует ПС-текста в структуры знаний, в которых в явном виде присутствуют выделенные объекты, их признаки и связи. Такие структуры называются семантическими (СС-текста). Блок реализован в виде ДЕКЛ-программ и управляется лингвистическими знаниями, представленными в виде семантических сетей (РСС). Лингвистические знания состоят из правил выделения объектов и онтологий в виде РСС. Правила имеют достаточно сложную структуру. Левая часть составляется из позиций, которых с помощью И-ИЛИ графа признаков задаются допустимые слова. При этом различаются обязательные и факультативные позиции, задается допустимый контекст. В правой части задается формируемый фрагмент. Ошибки или потери на уровне СС-текста снижают качество результатов при работе блока принятия решений.  

  4.3. Блок принятия решений состоит из ДЕКЛ-программ, которые на основе структур знаний (СС-текста) выполняют различные функции: обеспечивают пополнение знаний новыми признаками и фрагментами, принятие экспертных решений, формирование конечных результатов.

 

    5. Полученные результаты (за 2010 -2011г.)

 

    В рамках проекта «Лингво-ИИ» на основе анализа корпусов текстов и используемых методов их формализации проведены следующие работы, связанные с совершенствованием средств анализа текстов на ЕЯ.

   

    5.1.  В плане совершенствования блока лексико-морфологического анализа. Разработаны методики (с доработкой соответствующих алгоритмов и программ)  для устранения неопределенностей при следующих видах анализа:

   - при разбиении текста на словоформы и предложения (неопределенности вызваны  наличием в корпусах текстов лексем, содержащих буквы, цифры и разделители практически в произвольной последовательности) ;

   - при присвоении словам морфологических и ряда семантических признаков за счет анализа составных частей словоформы (выделение фамилий); 

   - при ранжировании вариантов лексико-морфологического анализа  (разрешение лексической полисемии);

   - при присвоении словам семантических признаков на основе предметных каталогов (в случае наличия несколько вариантов такого присвоения, взятых из различных каталогов);

   - при выделении объектов фиксированной структуры (адресов, е-майлов, имен сайтов и др.);

   - при приведении выделенных объектов в стандартную форму (для адресов).

 

  5.2. Разработаны и реализованы методики выявления объектов и их ролевых функций (потерпевший, преступник, террорист, сотрудник милиции и др.) по косвенным признакам и контексту. Проведены соответствующие исследований на корпусах текстов в областях «Криминалистика» и «Терроризм». Разработаны правила такого выявления в структуре лингвистических знаний блока синтактико-семантического анализа. Усовершенствованы компоненты этого блока для поддержки различных видов контекстного анализа.

 

  5.3. Разработаны и реализованы методики выявления объектов, заданных в неявном виде, при отсутствии характеристических признаков объекта. Методики основаны на предположении о возможном их появлении. Созданы правила такого выявления в структуре лингвистических знаний блока синтактико-семантического анализа. Проведены исследования работоспособности правил в областях «Криминалистика», «Резюме».

   

  5.4. Разработаны и реализованы методики выявления связей объектов путем предположения их наличия (например, если выявлена автомашина, то поиск ее обладателя и т.д.). Введены необходимые компоненты в блок синтактико-семантического анализа для поддержки правил такого выявления.

 

  5.5. Разработаны методы идентификации объектов с учетом анафорических ссылок (местоимений) и их краткого описания. Созданы правил идентификации в структуре лингвистических знаний. Введены необходимые компоненты в блок синтактико-семантического анализа и предметные словари для поддержки этих правил.

 

    6. Исследования и разработки, предполагаемые в 2012г.

 

  6.1. Исследование явления переноса объектов (когда он отсутствует, но подразумевается) и возможности его реализации в рамках ЛП.

 

  6.2. Разработка и реализация методик анализа происшествий и событий, представленных в виде структуры знаний (СС-текста), с выявлением их значимых признаков и особенностей, отсутствующих в тексте описания. Создание соответствующих ДЕКЛ-программ для блока принятия решений.  Проверка их работоспособности на примере области «Криминалистика» - для соотнесения происшествия к определенным категориям по классификаторам криминальной милиции типа «Способ совершения преступления», «Характер преступления» и др.  

 

  6.3. Разработка и реализация методик выявления значимых признаков объектов на основе анализа СС-текста. Создание соответствующих ДЕКЛ-программ и их проверка на корпусе текстов в области «Памятники» - для дополнительного указания: «Кому посвящен памятник», «Кто автор», «Место расположения» и др. Эта информация зачастую задается в неявном виде.

 

  6.4. Разработка экспертных систем, использующих структуры знаний для порождения новой информации об объектах. Создание соответствующей оболочки и ее отладка на текстах в области «Резюме» - для классификации организаций («Место учебы», «Место работы», «Курсы»), оценки степени знания языков и др.

 

  6.5. Разработка методик классификации объектов по текстам их описания на примере распознавания профессиональной области лица по описанию его функциональных обязанностей (с формированием новых признаков, характеризующих данное лицо.) Создание соответствующих ДЕКЛ-программ и их проверка в области «Резюме».

 

  6.6. Разработка обратного лингвистического процессора для выдачи объектов и результатов, представленных в виде РСС (в СС-текста), на ЕЯ. Разработка блока, обеспечивающего выдачу описаний объектов в нормальной форме (в ед. числе, им. падеже).

 

   7. Публикации

 

     7.1. Кузнецов И.П., Сомин Н.В.  Особенности настройки объектно-ориентированного
 лингвистического процессора на тексты предметной области // 
Сб. Системы и средства информатики. Вып.20. – М.: Наука. 2010. – С.124-146 .       
    7.2. Кузнецов И.П., Сомин Н.В. Особенности лексико-морфологического анализа
 при извлечении информационных объектов и связей из текстов естественного языка // 
Сб. Компьютерная лингвистика и интеллектуальные технологии. Выпуск 9 (16). 
По материалам международной конференции «Диалог 2010». М. РГГУ. 2010 г. С. 254-264.       
     7.3. Кузнецов И.П. Козеренко Е.Б., Мацкевич А.Г. Принципы организации
 объектно-ориентированных систем обработки неформализованной
 информации // «Искусственный интеллект». Журнал НАН Украины, 2010. Вып. 3. С. 227-237.       
     7.4. Кузнецов И.П. Козеренко Е.Б., Мацкевич А.Г. Принципы организации 
объектно-ориентированных систем обработки неформализованной информации // 
Материалы международной конференции  «Искусственный интеллект.
 Интеллектуальные системы», ИИ-2010. Крым, Украина. 2010. Том 1. С. 205-210 .       
     7.5. Кузнецов И.П. Сомин Н.В., Соловьева Н.С., Мацкевич А.Г., Николаев В.Г.
 Особенности работы одного класса лингвистических процессоров при извлечении 
объектов и связей из документов на естественном языке» //
 Труды конференции, «Компьютерная  лингвистика», посвященной памяти Р.Г. Пиотровского, Минск 14-15 июня 2010.

   7.6. Козеренко Е.Б., Кузнецов И.П. Когнитивно-лингвистические представления в системах обработки текстов // Сб. «Информатика и ее применение». 2010 г. Т. 4. Вып. 3. С. 69-76.

     7.7. Козеренко Е.Б., Кузнецов И.П. Эволюция лингво-семантических представлений
 в интеллектуальных системах на основе расширенных семантических сетей // 
Сб. Компьютерная лингвистика и интеллектуальные технологии. Выпуск 9 (16). 
По материалам международной конференции «Диалог 2010». М. РГГУ. 2010 г. С. 205-212.

    7.8. Kuznetsov I.P., Kozerenko E.B., Matskevich A.G.  Deep and Shallow Semantic presentations in Intelligent Fact Extractors // Proceedings of ICAI’2010 Las Vegas, USA, June 14-17, 2010, CRSEA Press, 2010.