Материал из IpiranLogos.


МОНОГРАФИЯ:
Методы автоматического извлечения из текстов семантически значимой информации.
Кузнецов И.П., Сомин Н.В.
(Институт Проблем Информатики - ИПИ РАН)


В данной монографии рассматривается проблема извлечения знаний из текстов естественного языка (ЕЯ). Знания представляются в виде формальных структур, отображающих семантически значимую информацию, т.е. все то, что интересует пользователя. Для извлечения такой нформации был разработан семантико-ориентированный лингвистический процессор, осуществляющей глубинный анализ текстов ЕЯ с их формализацией - формированием структур знаний. Такие структуры образуют базу знаний, которая является основой для решения логико-аналитических задач: различного вида семантических поисков, экспертных решений, составления кратких отчетов, аннотаций и др. Итак, все решения осуществляются на уровне формальных структур, в которых должна быть представлена вся значимая информация, содержащаяся в текстах ЕЯ. Основная проблема – в извлечении этой информации.
Дело в том, что ЕЯ – это чрезвычайно сложный объект, где для выражения одного и того же используются различные формы ЕЯ, в рамках многих конструкций допускается свободный порядок слов, многое умалчивается (дается в имплицитной форме), используются различные обозначения и сокращения и т.д. И все это нужно приводить к «общему знаменателю» - отображать на структуры знаний, где не должно быть неоднозначностей, и по возможности, вся значимая информация, заданная в неявном виде, должна восстанавливаться. Такое отображение требует решения сложнейших задач, которые решаются в рамках семантико-ориентированного лингвистического процессора.
Данная монография посвящена проблемам автоматической формализации неструктурированных текстов ЕЯ. Рассматриваются методы и средства извлечения из текстов эксплицитной информации (т.е. выраженной в явном виде), а также решение более сложных проблем, связанных с выявлением имплицитной информации, т.е. восстановлением интересующей пользователя информации, заданной в неявном виде, и устранением неопределенностей на всех уровнях автоматического анализа текстов. В основном, рассматривается анализ текстов русского языка - ЕЯ. Хотя предлагаемые методики были успешно использованы для извлечения знаний из текстов английского языка.
Предлагаемые методики являются новыми, оригинальными разработками. Они обеспечивают тонкую настройку на корпуса текстов ЕЯ, значительно уменьшают уровень шумов и потерь при извлечении знаний из текстов на ЕЯ. Методики реализованы в виде программных модулей и доведены до уровня использования в прикладных логико-аналитических и информационных системах, основанных на технологи баз знаний.


СОДЕРЖАНИЕ

Введение
1. Системы и средства извлечения структур знаний
1.1. Особенности текстовой коммуникации
1.2. Логико-аналитические системы
1.3. Расширенные семантические сети
1.4. Предметные области и тексты

2. Извлечение из текстов эксплицитной и имплицитной информации
2.1. Извлекаемые информационные объекты
2.2. Виды имплицитной информации
2.3. Особенности извлечения имплицитной информации

3. Семантико-ориентированные лингвистические процессоры
3.1. Основные компоненты
3.2. Лексический анализатор
3.3. Морфологический анализатор
3.4. Пространственные структуры
3.5. Пример пространственной структуры

4. Синтактико-семантический анализ
4.1. Терминологическая база
4.2. Синтактико-семантические правила
4.3. Применение правил
4.4. Содержательные портреты документов
4.5. Направления совершенствования лингвистического процессора

5. Методы устранения лексической полисемии
5.1. Проблемы лексической полисемии
5.2. Классификация лексем
5.3. Разрешение неопределенностей при выделении лексем
5.4. Методы определения конца предложения

6. Методы устранения неопределенностей морфологического анализа
6.1. О проблеме морфологической омонимии
6.2. Система морфологических признаков
6.3. Устранение морфологической омонимии методами комбинаторного анализа
6.4. Устранение неопределенностей методами синтаксического анализа
6.5. Особенности распознавания имен и фамилий
6.6. Постморфологический анализ английских лексем

7. Методики устранения неопределенностей на основе предметных словарей
7.1. Назначение и возможности предметных словарей
7.2. Методы повышения эффективности работы словарной системы
7.3. Настройка предметных словарей
7.4. Интерфейсная компонента предметных словарей

8. Идентификация информационных объектов
8.1. Правила идентификации
8.2. Идентификация связок «тот, который»
8.3. Идентификация личных местоимений
8.4. Идентификация указательных слов и местоимений
8.5. Идентификация кратких имен и обозначений

9. Методики выявления особенностей объектов и событий
9.1. Семантические фильтры
9.2. Онтологическая база
9.3. Аналитические фрагменты

10. Выявление ролевых функций объектов
10.1. Выбор метода
10.2. Представление лиц и их деяний
10.3. Средства выявления ролевых функций
10.4. Объяснение результатов
10.5. Вид онтолого-фрагментарных знаний
10.6. Оценка методики

11. Выявление новых объектов и связей
11.1. Выявление объектов без характеристических слов
11.2. Выявление признаков и связей
11.3. Уточнение неопределенных компонент

12. Экспертные системы на основе структур знаний
12.1. Составления описаний объектов на основе связей
12.2. Задачи кадровых агентств
12.3. Распознавание профессиональной области лица по его обязанностям
12.4. Экспертная оболочка для выдачи объектов в рамках заданной схемы

13. Обратный лингвистический процессор
13.1. Функции обратного лингвистического процессора
13.2. Методика нормализации терминов

Заключение
Литература