Лингвистический процессор для автоматического выявления из текстов значимой информации

Лингвистический процессор для автоматического выявления

из текстов значимой информации с ее компоновкой

в рамках указанных шаблонов

Кузнецов Игорь Петрович, Мацкевич Андрей Георгиевич (ИПИ РАН)

igor-kuz@mtu-net.ru

Рассматриваются семантико-ориентированный лингвистический процессор (ЛП), предназначенный для обработки текстов естественного языка: сообщений средств массовой информации, сводок происшествий и др. ЛП автоматически анализирует введенный в компьютер текст, выделяет из него семантически значимую информацию (это лица, организации, адреса, направленность действий и др.) и выдает ее в требуемой форме, например, в виде таблицы для пополнения БД или же в виде структуры для использования в базе знаний. Такое выделение определяется шаблонами, которые задаются пользователем. Каждый шаблон соответствует своему значимому объекту и состоит из связанных позиций, которые сопоставляются компонентам данного объекта - словам, составляющим его описание. Каждый шаблон связан с лингвистическими знаниями, определяющими привязку его полей к компонентам естественного языка.

1. Введение

Одним из важных направлений является создание информационно-аналитических центров на базе компьютеров. Их главная задача - обработка больших потоков текстов с выделением значимой (интересующей пользователя) информации с ее последующим использованием: для аналитических решений в рамках компьютера, заполнением таблиц в БД или и просто выдачей в удобном для

пользователя виде. Трудности такой обработки определяются особенностями естественного (русского) языка: наличием большого количества словоформ, синтаксических конструкций,

неоднозначностей, умолчаний и др. В связи с этим, уровень формализации текстов в существующих системах и качество их работы невысоки.

В докладе рассматривается важная компонента информационно-аналитической системы - ее лингвистический процессор (ЛП), ориентированный на выделение из текстов семантически

значимой информацию: объектов с их количественными и качественными характеристиками. Например, это могут быть производства с указанием их месторасположения, состава выпускаемой продукции, их количества, качества и т.д. Другие примеры: забастовки, вид забастовки, количество участников, их действия, время, место; вид преступления, количество преступлений, время, место и др.

Выделяемые ЛП объекты и их характеристики определяются шаблонами, которые задаются пользователем. Каждый шаблон соответствует своему значимому объекту и состоит из связанных позиций (полей), которые сопоставляются компонентам данного объекта. Каждый шаблон связан с лингвистическими знаниями, определяющими привязку его полей к компонентам естественного языка. Роль шаблона может играть таблица или схема базы данных (БД).

ЛП осуществляет анализ данных ей текстов с заполнением полей введенных в нее шаблонов. Если роль шаблонов играют таблицы БД, тогда задача системы будет сводиться к автоматическому заполнению этих таблиц на основе данной ей текстовой информации.

ЛП учитывает тот факт, что различных пользователей может интересовать различная информация. Интересы пользователя со временем могут изменяться. Настройка системы на пользователя и интересующие его объекты осуществляется путем ввода в нее нового шаблона с привязкой его позиций к компонентам естественного языка, или же путем изменения существующих шаблонов и соответствующих лингвистических знаний.

Подобного сорта системы начинают развиваться на Западе в рамках перспективных направлений: Text mining, Knowledge discovery, которые считаются наиболее приоритетными. Примеры – это системы FASTUS, CIRCUS и др. [3]. Перспективность направления определяется громадными объемами текстов, извлекаемых через ИНТЕРНЕТ, невозможностью для пользователя их прочитать или даже просмотреть в приемлемое время, чтобы найти интересующую его информацию.

2. Особенности ЛП

ЛП основан на структурных методах обработки. Все виды анализа осуществляются на уровне специального вида семантических сетей [4] в рамках инструментального комплекса - языка ДЕКЛ. Это дает значительные преимущества - позволяет разрабатывать и реализовывать структурные грамматики, ориентированные на реальные приложения. Такие грамматики состоят из правил, у которых в левой и правой части - семантические сети. С помощью левой части осуществляется анализ различных признаков слов, их взаимного расположения, степени согласованности, отсутствие недопустимых слов и т.д. Правая часть определяет результат работы правила. Здесь может быть указано на необходимость объединения слов в словосочетания или же в структуры (сети), представляющие связи, в том числе семантические.

Применение правил сводится к выявлению значимых компонент (информационных слов) с учетом контекста (вспомогательных слов). Информационные слова определяют объекты. Здесь важную роль играют слова-классификаторы, наличие которых указывает на присутствие соответствующей информации. Например, слова типа ОТДЕЛ, ПРОГРАММИСТ говорят о том, что речь будет идти о работе, а слово МОСКВА - о географическом положении.

Вспомогательные слова - те, без которых значимые компоненты не теряют своего существования. К ним относятся предлоги, знаки пунктуации и так называемые шаблонные слова (ФАМИЛИЯ, РАБОТАЕТ, ПРОЖИВАТЬ, УЛ и т.д.).

Значимые компоненты с точки зрения их выявления условно делятся на жесткие и мягкие. Жесткие состоят из фиксированного числа позиций или слов. К таким относятся: ФИО, дата, телефон. У мягких компонент количество позиций переменное: приметы, работа. Адрес может рассматриваться и как жесткая, и как мягкая компоненты - в зависимости от используемого способа его выделения.

Обработка текста включает в себя:

- морфологический анализ;

- контекстный анализ;

- синтактико-семантический анализ;

- логико-аналитическую обработку.

Морфологический анализ имеет целью - приведение слов в каноническую форму. ЛП использует блок морфологического анализа, который основан на обобщенных окончаниях слов. В этот блок введено лишь несколько десятков тысяч слов, из которых специальной программой выделены типовые окончания слов различных грамматических категорий. Благодаря ним обеспечивается морфологический анализ неизвестных слов, что осуществляется с достаточно высокой надежностью.

Результатом работы блока морфологического анализа является семантическая сеть, представляющая пространственную структуру текста. В ней представлен порядок расположения слов с их характеристиками. Последующая обработка сводится к преобразованию сетей на основе заданных правил.

Контекстный анализ необходим для выделения адресов, номеров машин, организаций и др. Как правило, это наборы слов, которые грамматически никак не согласованы. Их выделение может осуществляться по чисто формальным принципам. Например, адрес может рассматриваться как набор буквосочетаний Г., УЛ., Д.,.., слов с большой буквы и чисел. Каждый такой набор может иметь свои границы и недопустимые компоненты. Например, в адресах не может быть ФИО, глаголов и т.д. Выделение таких наборов слов (описаний объектов) основано на использовании слов - классификаторов. По ним система распознает наличие объекта или его компонент. Контекст определяет начало и конец описания объекта, а также знаки и слова, которые могут быть в соответствующих текстах описания. Более подробно методика контекстного анализа рассмотрена в работе [2].

Синтактико-семантический анализ необходим для выделения грамматически связанных групп слов, составляющих описание объекта. Например, это может быть описание каких-либо лиц (примет, особенностей одежды и др.), производств или вида выпускаемой продукции. В таких описаниях слова согласованы между собой. Для их выделения используются специальные грамматики, состоящие из правил следующего вида. В левой части каждого правила указаны позиции и что может стоять на каждой позиции. Это может быть перечисление конкретных слов или предлогов. Могут быть также указаны грамматические категории слов или же какие либо другие признаки. В правой части правила указывается, какие действия необходимо выполнить. Например, свернуть выделенный набор слов, представив его как одно слово с определенными грамматическими характеристиками или другими признаками. Связать выделенные слова в какую-либо структуру, построив соответствующую семантическую сеть.

Логико-аналитическая обработка осуществляется на основе семантических фильтров [1]. Семантические фильтры решают несколько задач. Во-первых они обеспечивают выявление семантически связанных слов, представляющих описание объекта, например, по схеме ЦВЕТ-МАТЕРИАЛ-ОДЕЖДА или КОЛИЧЕСТВО-ТОВАР. Для конкретизации таких схем используются родовидовые деревья и специальным образом организованные терминологические словари, задающие семантические пространства терминов. Во-вторых, на основе таких фильтров словосочетания или другие компоненты текста соотносятся с определенными пунктами классификации, например, какого сорта несчастный случай или какой характер повреждений описывается в тексте. Здесь также используются родовидовые деревья и терминологические словари. В-третьих, с помощью таких фильтров словесное описание численных показателей преобразуется в само число, а также выявляется, что это число значит (это может быть дата, расстояние, возраст, относительное изменение, количество денег, процентов и др.).

3. Ввод шаблонов, форма их записи.

Семантически значимая информация (объекты), выделяемая системой из текстов, группируется в семантические категории. Последние могут быть связаны и образовывать шаблоны. Примеры семантических категорий: ОРГАНИЗАЦИЯ, ТЕЛЕФОН, АДРЕС, КОЛИЧЕСТВО, ВРЕМЯ, "несчастный случай" и др. Категории могут делиться на подкатегории. Например, "несчастный случай" - это может быть "несчастный случай от пожаров", АВАРИЯ, ТРАВМАТИЗМ. Подкатегории могут иметь свои подкатегории. Например, для категории ТРАВМАТИЗМ может быть задан вид травматизма и т.д. В результате образуется родо-видовое дерево семантических категорий (иерархическая структура).

Родо-видовое дерево категорий строится и вводится в систему пользователем, который дает список категорий и для каждой из них указывает подкатегории. Последние могут быть взяты из типовых классификаторов (если таковые имеются).

Связь между категориями или подкатегориями также задается пользователем в виде пар ОРГАНИЗАЦИЯ-АДРЕС, ОРГАНИЗАЦИЯ-ТЕЛЕФОН, "несчастный случай"-КОЛИЧЕСТВО и т.д. Такие пары могут комбинироваться в тройки, ... n-ки и образовывать таблицы. Например, это может быть таблица со столбцами ОРГАНИЗАЦИЯ-АДРЕС-ТЕЛЕФОН.

Такие пары вводятся и корректируются пользователем по мере необходимости. При наличии таких пар система (помимо выделения из текстов соответствующей информации) должна решать задачу связывания выделенных объектов. Например, если в предложении (или нескольких рядом стоящих предложениях) упоминаются конкретная организация и адрес, то система должна выявить их соотнесенность. В результате формируются пары, которые могут быть использованы для заполнения пустых клеток соответствующей таблицы или полей базы данных.

Ввод в систему родо-видового дерева категорий и упомянутых пар осуществляется путем их преобразования в предикатную форму записи (т.е. в виде семантических сетей) в специальный настроечный файл, который читается системой.

4. Примеры

В настоящее время система ориентирована на работу с текстами следующего вида: сообщениями средств массовой информации, а также сводками происшествий, записными книжками и др. Учитывается тот факт, что в текстах естественного языка могут иметь место многочисленные сокращения (ТЕЛ, ГР-КА...), различные способы выражения одного и того же.

При работе со средствами массовой информации в качестве значимых объектов были взяты: организации, коммерческие банки, упоминающиеся лица с указанием ФИО или без указания, их адреса, место работы, телефоны и т.д.. Такая информация выражается грамматически правильно записанной последовательностью слов и символов.

Результатом работы ЛП является семантическая сеть, которая может быть преобразована в любую форму, определяемую приложениями. Приведем примеры одной из форм.

Пример 1.

Выделение по шаблону следующего вида: АКЦИИ (забастовки, демонстрации,..) - КОЛИЧЕСТВО УЧАСТНИКОВ - ВРЕМЯ - МЕСТО.

За прошедшие сутки в Российской Федерации

общественно-политическая обстановка существенно не изменялась.

В г. Шуе Ивановской области 100 медицинских работников провели

несанкционированный митинг и блокирование дороги Шуя-Палех,

требуя погашения задолженности по заработной плате. С

аналогичным требованием провели предупредительные забастовки -

рабочие шахты "Юршор" (12 человек) в г. Воркуте Республики

Коми; учителя школы (67 человек) в Суземском районе Брянской

области; начали забастовки - учителя 43 школ (4000 человек) в

26 районах Республики Бурятия; работники семи школ (351

человек) в г. Заречном Белоярского района Свердловской области.

С аналогичным требованием продолжают: блокирование - проходной

завода "Востсибэлемент" рабочие предприятия (20 человек) в г.

Свирске Черемховского района Иркутской области.

Результат обработки:

Участник: МЕДИЦИНСКИЙ РАБОТНИК

Колич. участников: 100 МЕДИЦИНСКИЙ РАБОТНИК

Вид забастовки: НЕСАНКЦИОНИРОВАННЫЙ МИТИНГ И БЛОКИРОВАНИЕ

ДОРОГА ШУЯ - ПАЛЕХ

Действие: ПРОВЕСТИ: 100 МЕДИЦИНСКИЙ РАБОТНИК НЕСАНКЦИОНИРОВАННЫЙ

МИТИНГ И БЛОКИРОВАНИЕ ДОРОГА ШУЯ - ПАЛЕХ

Где: ГОРОД ШУЕ ИВАНОВСКИЙ ОБЛ.

Действие: ТРЕБОВАТЬ: ПОГАШЕНИЕ ЗАДОЛЖЕННОСТЬ ЗАРАБОТНЫЙ ПЛАТА

--.--

Вид забастовки: ПРЕДУПРЕДИТЕЛЬНЫЙ ЗАБАСТОВКА

Участник: РАБОЧИЙ ШАХТА ЮРШОРЫ

Действие: ПРОВЕСТИ: АНАЛОГИЧНЫЙ ТРЕБОВАНИЕ ПРЕДУПРЕДИТЕЛЬНЫЙ

ЗАБАСТОВКА РАБОЧИЙ ШАХТА ЮРШОРЫ

Место: ГОРОД ВОРКУТА РЕСП. КОМИ

--;--

Участник: УЧИТЕЛЬ ШКОЛА

Место: СУЗЕМСКИЙ РАЙОН БРЯНСКИЙ ОБЛ.

--;--

Вид забастовки: ЗАБАСТОВКА

Участник: УЧИТЕЛЬ 43 ШКОЛА

Действие: НАЧАТЬ: ЗАБАСТОВКА УЧИТЕЛЬ 43 ШКОЛА

Место: 26 РАЙОН РЕСП. БУРЯТИЯ

--;--

Участник: РАБОТНИК 7 ШКОЛА

Место: ГОРОД ЗАРЕЧНЫЙ БЕЛОЯРСКИЙ РАЙОН СВЕРДЛОВСКИЙ ОБЛ.

--.--

Вид забастовки: БЛОКИРОВАНИЕ ПРОХОДНОЙ ЗАВОД ВОСТСИБЭЛЕМЕНТ

Участник: РАБОЧИЙ ПРЕДПРИЯТИЕ

Действие: ПРОДОЛЖАТЬ: АНАЛОГИЧНЫЙ ТРЕБОВАНИЕ БЛОКИРОВАНИЕ

ПРОХОДНОЙ ЗАВОД ВОСТСИБЭЛЕМЕНТ РАБОЧИЙ ПРЕДПРИЯТИЕ

Место: ГОРОД СВИРСКЕ ЧЕРЕМХОВСКИЙ РАЙОН ИРКУТСКИЙ ОБЛ.

--.--

В настоящее время ЛП имеет несколько режимов работы. В другом режиме формируются семантические сети для системы Криминал. При этом анализ текстов остается тем же самым. Меняется только форма выдачи.

Литература

1. Кузнецов И.П. Методы обработки сводок с выделением особенностей фигурантов и происшествий. Труды международного семинара Диалог-1999 по компьютерной лингвистике и ее приложениям. Том 2. Тарусса 1999.

2. Кузнецов И.П., Кузнецов В.П., Мацкевич А.Г. Система выявления из документов значимой информации на основе лингвистических знаний в форме семантических сетей. Труды международного семинара Диалог-2000 по компьютерной лингвистике и ее приложениям. Том 2. Протвино 2000.

3. FASTUS:a Cascaded Finite-State Trasducerfor Extracting Information from Natural-Language Text. AIC, SRI International. Menlo Park. California, 1996.

4. Кузнецов И.П. Семантические представления. М. Наука. 1986г. 290 с.