Выявление имплицитной информации из текстов на естественном языке: проблемы и методы

Кузнецов Игорь Петрович, Сомин Николай Владимирович (оба ИПИ РАН)

Аннотация: Рассматривается семантико-ориентированный лингвистический процессор, осуществляющий глубинный анализ текстов естественного языка и формирующий на этой основе структуры знаний. Одно из направлений развития таких процессоров связано с выявлением имплицитной информации, которая рассматривается в узком плане - как извлечение из текстов информационных объектов, их свойств и связей, заданных в неявном виде. Предлагаются методики, обеспечивающие такое извлечение на различных уровнях анализа текстов – лексико-морфологическом, синтактико-семантическом и структурном.

Ключевые слова: лингвистические процессоры, структуры знаний, имплицитная информация.

1 Постановка задачи выявления имплицитной информации

1.1 Цели проекта «Лингво-ИИ»

В ИПИ РАН развивается направление автоматической обработки потоков (корпусов) текстов на естественном языке (ЕЯ), связанное с выявлением из текстов информационных объектов, их связей и формированием структур, которые являются основой для выполнения различных видов объектных (семантических) поисков, а также экспертных решений, составляющих круг задач пользователей. Это направление связано с формализацией текстов и относится к области извлечение знаний (Knowledge Extraction). При этом важно, чтобы знания были представлены в форме, учитывающей характер последующей обработки.

Следует учитывать особенности ЕЯ, носители которого обладают возможностями, до моделирования которых науке еще нужно пройти очень большой путь. Это, прежде всего, видение мира. За текстами ЕЯ человек видит картины внешнего мира, которые несут гораздо больше информации, чем сам текст. Человек способен по отдельным компонентам, присутствующим в тексте, восстанавливать эти картины, дополнять их, использовать причинно-следственные зависимости для прослеживания последующих изменений, динамики. Такая возможность далеко выходит за рамки моделей, основанных на логическом выводе. Отсюда следует особенность текстов ЕЯ. Как правило, в них умалчивается то, что известно адресатам, для которых предназначен текст, и что легко восстанавливается по тексту.

Другими словами, большое количество нужной для пользователя информации дается в текстах ЕЯ в скрытом виде. Такая информация называется имплицитной. Помимо этого, в текстах имеет место множество неопределенностей, которые человек просто не замечает, но которые требуют специальных методик и процедур для их автоматического разрешения. Важной научной и практической проблемой области «извлечение знаний из текстов ЕЯ» является представление такой информации в явном виде: преобразование имплицитной информации в эксплицитную и устранение возникающих при этом неопределенностей, что является важным фактором в плане повышения качества решения пользовательских задач. В связи с многоплановостью проблемы ее решение возможно только при существенных ограничениях. Речь будет идти о такой имплицитной информации, которую можно восстановить путем глубинного анализа текстов и логического вывода. Эктралингвистическая информация остается за пределами нашего внимания.

Проект является логическим продолжением исследований, имеющих целью создание нового класса интеллектуальных систем, основанных на автоматической формализации текстов ЕЯ с формированием структур знаний для решения логико-аналитических задач: проекты ИПИ РАН «Криминал», «Аналитик», «Поток», «Лингвопроцессор». В рамках этих проектов созданы новые методы формализации и извлечения знаний из текстов ЕЯ, разработан постоянно совершенствуется уникальный объектно-ориентированный лингвистический процессор (ЛП), выделяющий информацию для пользователей, которые интересуются конкретными объектами, их свойствами и связями (другое название – объектно-ориентированный ЛП). Такая информация отображается на структуры знаний. Процессор ЛП реализован средствами языка ДЕКЛ и управляются лингвистическими знаниями (ЛЗ) в виде предметных словарей, средств параметрической настройки, а также правил выделения объектов и связей [1-5]. С помощью ЛЗ осуществляется настройка ЛП на соответствующие категории пользователей и корпуса текстов. В результате возникает конкретная реализация. Таким образом, речь идет о средствах построения класса процессоров нового типа.

Проект «Лингво-ИИ» имеет целью - дальнейшее развитие таких процессоров, совершенствование методик и средств автоматизации для более точного и полного выявления объектов, их признаков и связей, устранения неопределенностей на всех уровнях формализации, дополнения структур знаний новой информацией, отсутствующей или заданной в неявном виде.

1.2 Виды имплицитной информации

В проекте «Лингво-ИИ» затрагивается только та часть имплицитной информации, которая поддается автоматизации в рамках процедур, обеспечивающих работу лингвистического процессора (ЛП) и решение задач на основе технологии баз знаний. В реальности имплицитная информация далеко выходит за рамки такой интерпретации.

Понятие «имплицитный» возникло от латинского слова «implicito», которое переводится как «внутри заложенное», и применительно к информации означающее «скрытый», «подразумеваемый», «неявный». В лингвистике имплицитной называется информация, которая в явном виде не выражается, но извлекается адресатом при интерпретации сообщения [6,7]. Существуют различные подходы к классификации имплицитной информации. В частности, некоторые из них представлены в [6-10]. Рассмотрим, какие виды имплицитной информации различаются в лингвистике.

Пресуппозиция – это термин лингвистической семантики. Различают семантическую, прагматическую и лексическую пресуппозицию. Семантическая пресуппозиция (в логике – импликация) предполагает элементы логического вывода для порождения новых знаний на основе имеющейся информации. Как правило, такое порождение осуществляется на уровне суждений или фактов, которые описываются на ЕЯ с помощью глаголов и управляемых ими форм. С многими глаголами связаны действия, которые вызывают определенные изменения ситуации. Например, «Купить вещь» (означает, что вещь будет у субъекта действия, но количество денег у него уменьшится), «Взять книгу у А1» (означает, что книга будет у субъекта действия и ее не будет у А1) и т.д. Описанные изменения задаются с помощью правил, которые являются основой логического вывода. Другие примеры: «Мы работаем, чтобы сохранить Ваше доверие» (означает, что такое доверие было), «Воссоединение Белоруссии и России» (означает, что раньше они были вместе). Глаголы типа «видеть», «знать» подразумевают истинность суждения и т.д.

Прагматическая пресуппозиция учитывает знания и убеждения адресата. Суждение Р является прагматической пресуппозицией суждения S, если, высказывая суждение S, адресант считает Р само собой разумеющимся и известным адресату. Лексическая пресуппозиция предполагает выводы на уровне лексического анализа. Например, из «истерический» следует «нервный», «больной», «псих» и т.д.

Анафоры (от греч. «anapheren» – относить назад) являются разновидностью имплицитной информации. Они задаются в текстах с помощью анафорических местоимений, связок «тот, который», кратких имен и отличительных свойств. Например, «… Медведев …. Он (или президент, или который) …». Разрешение анафор – это соотнесение местоимений с соответствующими лицами или объектами. Различаются синтаксические анафоры, для разрешения которых достаточно морфологических признаков, и семантические анафоры - учитываются семантические категории слов и возможность участия соответствующих объектов в тех или иных действиях.

Коммуникативные импликатуры учитывают коммуникативное воздействие языка на человека. Это, прежде всего жанровые и стилистические смещения, которые в наибольшей степени проявляются в скрытой рекламе. Например, когда рекламное сообщение о лекарствах маскируется как рекомендация врача или больной говорит об их положительном воздействии при лечении. Коммуникативные импликатуры при манипулировании сознанием человека учитывают многие его свойства. Человек лучше запоминает информацию вначале и в конце текстового материала, при повторах. Критичность к сообщению снижается, если имеет место доверие к носителю информации, если оно по каким-то причинам нравится (эффект эмоциональности), если он предрасположен к ее восприятию.

Подобная классификация далеко не полная. Но она иллюстрирует всю сложность языка и его восприятия. Многие виды имплицитной информации доступны только для человека. У компьютера нет фоновых знаний (как у человека). Компьютером невозможно манипулировать перечисленными выше способами. Вне сферы автоматизации остаются метафоры, аналогии, многие сравнительные конструкции и др. Поэтому и само понятие имплицитный трансформируется с учетом возможностей и задач лингвистических процессоров и баз знаний.

1.3 Проблемы извлечения имплицитной информации

Проект «Лингво-ИИ» направлен на разработку методик автоматического извлечения имплицитной информации в рамках существующих инструментариев – языка расширенных семантических сетей (РСС) и средств их обработки (язык ДЕКЛ). Язык РСС состоит из фрагментов, которые в простейшем случае имеют вид предикатов. В отличие от предикатов, каждый фрагмент имеет свой уникальный код, который может стоять на аргументных местах других фрагментов. Это необходимо для представления семантических составляющих ЕЯ, когда действия включают в себя объекты или другие действия и т.д. Возникают сложные структуры, выходящие за рамки языка логики предикатов. При этом логический вывод осуществляется с помощью правил преобразования таких структур, реализованных в инструментальной среде ДЕКЛ [3].

Понятие имплицитный рассматривается с точки зрения дополнения и уточнения информационных объектов и связей, которые выделяются ЛП в процессе формализации текстов ЕЯ и которые необходимы для решения задач. Это понятие смещается в сторону научно-технической разработки. Остаются в стороне многие виды пресуппозиций, коммуникативные импликатуры и др. При этом акцент смещается в сторону импликатур, которые порождаются с помощью логического вывода, осуществляемого путем анализа и преобразования структур знаний.

Отметим два важных момента. Во-первых, на основе логического вывода осуществляется принятие многих решений, в том числе экспертных. В результате формируются экспертные знания, которые в явном виде не присутствуют в текстах документов и которые будем считать разновидностью имплицитной информации. И во-вторых, известно, что ЕЯ насыщен неопределенностями, которые человек часто просто не замечает, но которые требуют специальных методик для их автоматического устранения (на всех уровнях анализа при работе ЛП). Это необходимо для повышения качества работы ЛП при формировании структур знаний, на основе которых выявляется имплицитная информация. В связи с этим важной при выявлении имплицитной информации является и проблема устранения различных видов неопределенностей – лексической, морфологической, синтаксической и семантической.

Итак, автоматическое извлечение имплицитной информации связано с решением ряда достаточно сложных лингвистических задач: выявлением подразумеваемых объектов и связей, идентификацией на основе анафорических ссылок, разрешением различного рода полисемии и неопределенностей и др. Для этих задач требуются нетривиальные механизмы принятия решений и соответствующая техника логического вывода. Их наличие существенно повышает научный уровень исследований в области создания ЛП. Для уточнения задач рассмотрим структуру ЛП.

Семантико-ориентированный ЛП состоит из четырех основных компонент.

Блок лексико-морфологического анализа (ЛМА). Выделяет из документа слова и предложения и выдает в виде семантической сети (ПС-документа), представляющей последовательность компонент (слов в нормальной форме, чисел, знаков) и их основные признаки. Использует набор предметных словарей (словарь стран, регионов России, имен, профессий и др.) для придания словам и словосочетаниям дополнительных семантических признаков [11,12].

Блок синтактико-семантического анализа (ССА). Путем анализа ПС-документа выделяет объекты и связи. На их основе строит другую семантическую сеть, представляющую семантическую структуру (СС-документа), называемую содержательным портретом документа [2-5]. В СС-документа представляются не только объекты и связи, но и их участие в действиях, из каких предложений взяты тексты их описания и много другое. По СС- документа можно восстановить сам текст.

Содержательные портреты образуют структуры знаний, которые запоминаются в базе знаний. Блок управляется ЛЗ, за счет которых обеспечивается: извлечение информационных объектов (лиц, организаций, событий, их места, и др.), выявление связей объектов (как лица связаны с организациями, адресами и др.), анализ глагольных форм, причастных и деепричастных оборотов с выявлением фактов участия объектов в тех или иных действиях, идентификация объектов (с учетом анафорических ссылок и сокращенных наименований), выявление связей действий с их местом или временем, анализ причинно-следственных и временных связей между действиями и событиями.

Этот блок включает в себя базу лингвистических знаний (ЛЗ), которая содержит правила анализа текста во внутреннем представлении (РСС). Они определяют работу ЛП.

Блок экспертных решений (ЭС). Анализирует структуры знаний, решает логико-аналитические задачи и формирует дополнительную (экспертную) информацию, необходимую для пользователя.

Обратный лингвистический процессор (ОЛП). Преобразует структуры знаний в тексты ЕЯ, которые должны быть выданы пользователю.

Выявление имплицитной информации и устранение неопределенностей осуществляется (в рамках ЛП) на всех уровнях преобразования текстов документов в СС-документов с их последующей обработкой.

1.4 Задачи выявления имплицитной информации

Автоматическое выявление имплицитной информации на основе анализа текстов ЕЯ и разработанных методов их формализации требует проведение следующих работ.

· Совершенствование блока лексико-морфологического анализа. Разработка методик (с доработкой соответствующих алгоритмов и программ) для устранения неопределенностей при следующих видах анализа:

o при разбиении текста на словоформы и предложения (неопределенности вызваны наличием в корпусах текстов лексем, содержащих буквы, цифры и разделители практически в произвольной последовательности) ;

o при присвоении словам морфологических и ряда семантических признаков за счет анализа составных частей словоформы (выделение фамилий);

o при ранжировании вариантов лексико-морфологического анализа (разрешение лексической полисемии);

o при присвоении словам семантических признаков на основе предметных каталогов (в случае наличия несколько вариантов такого присвоения, взятых из различных каталогов);

o при выделении объектов фиксированной структуры (адресов, е-майлов, имен сайтов и др.);

o при приведении выделенных объектов в стандартную форму (для адресов).

· Разработка и реализация методик выявления объектов и их ролевых функций (потерпевший, преступник, террорист, сотрудник милиции и др.) по косвенным признакам и контексту. Создание правил такого выявления в структуре лингвистических знаний блока синтактико-семантического анализа. Проверка их работоспособности на документах области «Криминалистика».

· Разработка и реализация методик выявления объектов, заданных в неявном виде, при отсутствии характеристических признаков объекта. Использование предположений о возможном их появлении. Создание правил такого выявления в структуре лингвистических знаний блока синтактико-семантического анализа.

· Разработка и реализация методик выявления связей объектов путем предположения их наличия (например, если выявлена автомашина, то поиск ее обладателя и т.д.). Создание правил такого выявления. Совершенствование блока синтактико-семантического анализа для поддержки этих правил.

· Разработка методов идентификации объектов с учетом анафорических ссылок (местоимений) и их краткого описания. Создание правил идентификации в структуре лингвистических знаний. Совершенствование блока синтактико-семантического анализа и предметных словарей для поддержки этих правил.

· Исследование явления переноса объектов (когда объект отсутствует, но подразумевается) и возможности его реализации в рамках ЛП.

· Разработка и реализация методик анализа происшествий и событий, представленных в виде структуры знаний (СС-документов), с выявлением их значимых признаков и особенностей, отсутствующих в тексте описания.

· Разработка экспертных систем, использующих структуры знаний для порождения новой информации об объектах. Создание соответствующей оболочки и ее применение для классификации организаций («Место учебы», «Место работы», «Курсы»), оценки степени знания языков и др.

· Разработка методик классификации объектов по текстам их описания на примере распознавания профессиональной области лица по описанию его функциональных обязанностей.

· Разработка обратного лингвистического процессора для выдачи объектов и результатов, представленных в виде РСС (в СС-документов), на ЕЯ. Разработка блока, обеспечивающего выдачу описаний объектов в нормальной форме (в ед. числе, им. падеже).

В данной статье рассматриваются методы решения ряда таких задач, предложенные в рамках проекта «Лингво-ИИ» по планам на 2010 г.

2 Методы и алгоритмы устранения лексической полисемии

2.1 Проблемы лексической полисемии

Читая текст, человек легко определяет нем абзацы, предложения, лексемы и прочие элементы текста. Однако, при разработке алгоритмов их автоматического распознавания возникают проблемы, вызванные наличием различного рода неоднозначностей. Например, знак «.» (точка) может выступать как конец предложения, как признак сокращения («кг.», «прил.»), как инициалы в ФИО (типа «И.», «А.»), как разделитель целой и дробной части числа (3.14), как разделитель в датах, как элемент электронного или интернет-адреса и в ряде других ролей.

В тоже время, для выявления имплицитной информации крайне важным является корректное определение начала и конце предложения или абзаца. Абзац является той максимальной рамкой, в которой имеет смысл искать имплицитную информацию для уже найденных объектов, но не имеющих достаточного количества характеристик. Для ряда важных характеристик такой рамкой служит более узкий контекст – предложение.

Однако, именно аккуратное определение границ предложения является наиболее проблематичным. Как видно из приведенного примера, точка «.» не может служить надежным признаком конца предложения. Более того, в современных текстах в качестве признака конца предложения зачастую используются другие знаки. Это может быть «конец ячейки» таблицы, который при преобразованиях потерялся, или совершенно неожиданные комбинации символов. Отсюда следует необходимость разработки специальных методик.

2.2. Методики снятия неопределенности на лексическом уровне

Опыт разработки и использования ЛП показал, что главным способом борьбы с лексической полисемией является правильная классификация лексических единиц. Классификация должна помогать в решении основной задачи – выявления их текста информационных (семантических) объектов. Но поскольку этот процесс многоуровневый, то хорошая классификация должна быть ориентирована не только на семантический анализ, но и на промежуточные уровни – морфологический анализ и синтаксический анализ. В разработанных ЛП классификация включает в себя более 20 лексических типов: слово из русских или латинских букв, в кавычках, с большой буквы или из больших букв, с точкой в конце и т.д.

Определение конца предложения осуществляется еще до лексического анализа и определения типологии лексем. Уточнение, является ли данная точка «.» концом предложения, осуществляется после проведения морфологического анализа лексем с привлечением лексической и морфологической информации. Для этого в рамках блока ЛМА разработаны соответствующие рекурсивные алгоритмы.

Для корректной фиксации границ предложений, «точкой» не заканчивающихся, наиболее эффективным оказалась использование операторов настройки алгоритмов на особенности задачи и предметной области [13-15]. Примерами таких операторов являются следующие:

1) NEW_SENT (произв. число аргументов). Семантика: если указанное во фрагменте слово записано с прописной буквы и находится в начале строки текста, то оно рассматривается как начало нового предложения. Допустимы знаки «*», заменяющие окончание или указание части речи, типа *V,*T. Пример записи: NEW_SENT(ANALYSIS, ASSUR*). Действие: если слово «Analisis» или «Assurance» стоит в начале строки, то оно рассматривается как начало предложения.

2) END_SENT (произв. число аргументов). Семантика: если в тексте встречается одно из указанных слов (символов, знаков), то оно считается концом предложения. Пример записи: END_SENT(';'). Действие: точка с запятой «;» рассматривается как конец предложения.

3) ABBR (произв. число аргументов). Список сокращений с точками на конце, которые считаются цельными словами и точки не рассматриваются как конец предложения. Пример записи: ABBR(Inc.,Ltd.). Действие: словосочетания «Inc.» и «Ltd.» рассматриваются как сокращения.

4) ABBR (произв. число аргументов). Дается список сокращений с точками на конце, которые считаются цельными словами, и точки не рассматриваются как конец предложения. Пример записи: ABBR(Inc.,Ltd.). Действие: словосочетания «Inc.» и «Ltd.» рассматриваются как сокращения.

5) SEPARATOR (произв. число аргументов). Семантика: указание символов, которые всегда являются разделителями. Пример записи: SEPARATOR ('+', ':').

О всей системе операторов параметрической настройки см. [13] .

3 Методы устранения неопределенностей морфологического анализа

3.1 О проблеме морфологической омонимии

Выявление имплицитной информации связано с глубинным анализом текста ЕЯ. И немаловажную роль в этом процессе играет устранение омонимии морфологического анализа. Схема и особенности используемого в предлагаемом ЛП морфологического анализа описаны в [15,16]. Дело в том, что сам по себе морфологический анализ принципиально омонимичен. Например, лексема «стекло» может означать и существительное и глагол. Лексема «связи» дает несколько вариантов морфологического анализа, с разными падежами и числом. Более того, как правило, лексема допускает несколько вариантов морфологического анализа – их число может превышать 20, а случаи однозначного морфологического анализа являются исключениями. Однако, человек умеет из всех вариантов уверенно выбирать один правильный. Для этого требуется анализ контекста - лексического, синтаксического, семантического, и ситуационного. Ниже будут рассматриваться методы, которые используются в блоке ЛМА.

Прежде всего, полнота морфологического анализа обеспечивается использованием широкой номенклатуры морфологических признаков. Разработанная в ИПИ РАН система морфологических признаков традиционна и в то же время обладает высокой полнотой.

Другой используемый метод – комбинаторный анализ, заключающийся в определении только допустимых комбинаций. Для этого разработаны алгоритмы, основанные на для эвристических решениях, пусть не всегда безупречных, но срабатывающих в ряде самых значимых случаев, см. п. 3.3.

Однако наиболее эффективным методом устранения неопределенностей, как показала практика, является учет контекста. Для этого в блоке морфологического анализа широко используются средства частичного синтаксического анализа, см. п. 3.4.

3.2 Система морфологических признаков

Блок морфологического анализа обеспечивает выделение множества морфологических признаков - их более 100 (часть речи, род-число-падеж, формы глаголов, указатели email-ов и многое другое). Для одной лексемы этот блок выдает несколько признаков. Их набор и характеризует морфологический тип. Кроме чисто морфологических, блок выдает еще несколько лексических признаков, а также ряд фонетических признаков, которые могут быть использованы для синтеза речи.

Разработанная в ИПИ РАН система морфологических признаков традиционна и в то же время обладает высокой полнотой. Особое место занимает признак «#». Он означает, что данный набор признаков сформирован «по аналогии», т.е. была найдена словоформа с окончанием (т.е. несколькими конечными буквами), таким же как у данной лексемы, и набор признаков словоформы приписан данной лексеме. Варианты разбора «по аналогии» применяются для лексем, которых нет в морфологическом словаре.

3.3 Устранение морфологической омонимии методами комбинаторного анализа

Правило 1. Если имеют место два альтернативных варианта морфологического разбора, несовместимые между собой или практически несовместимые, то оставляется только один из них. Например, если один из вариантов разбора имеет признак “f” – фамилия, то все варианты с признаком “#” вычеркиваются.

Правило 2. После сравнения двух вариантов разбора один из них ранжируется как «старший», т.е. ставится на первое место. Отметим, что в принципе все варианты разбора равноправны. Однако для некоторых задач (например, генерации текстов) используется только один – старший вариант разбора. Поэтому далеко не безразлично, какой именно вариант станет старшим.

Например, если какой-либо вариант разбора имеет признак “г” – географическое название, то он ставится на первое место.

Отметим, что если ни одно из такого рода правил не срабатывает, то по умолчанию старший вариант разбора высчитывается по специальному алгоритму, учитывающему достоверность морфологического анализа.

Правило 3. Склеивание вариантов. Если варианты разбора совпадают с точностью до падежа, то они склеиваются в один вариант, где присутствуют оба падежа. Склеивание по сути дела является технической процедурой сокращения записи. Однако оно начинает играть существенную роль, учитывая алгоритмы по первым двум правилам.

Опыт использования комбинаторных алгоритмов (а их разработано около двух десятков) показал их высокую эффективность.

3.4 Устранение неопределенностей методами синтаксического анализа

Другим эффективным методом устранения морфологической омонимии является использование элементов синтаксического анализа. Хорошо известно, что омонимию слова можно устранить в контексте словосочетаний. Так, если говорят «большое стекло», то вариант анализа последнего слова как глагола «стекать» отпадает. Исходя из этой идеи, было предложено:

а) Проверять на полное согласование (по роду, числу и падежу) существительное со стоящими перед ним прилагательными или причастиями. Если указанная связь обнаруживается, то у обоих лексем оставлять только варианты разбора, совпадающие по роду. числу и падежу.

б) Проверять на наличие «генитивной цепочки» существительное (или группу существительного) и стоящие за ним дополнения в родительном падеже. Если такая связь обнаруживается, то у дополнения оставлять варианты разбора только с родительным падежом.

Последнее правило можно проиллюстрировать следующим примером. Если слово «связи» стоит в словосочетании «лейтенант связи», то морфологически многозначное слово «связи» (это существительное в родительном, дательном, предложном падежах единственного числа и винительном, именительном падежах множественного числа) приводится к однозначному разбору - родительный падеж единственного числа.

Использование элементов синтаксического анализа для устранения морфологической омонимии является очень эффективным методом, резко повышающим качество разбора.

3.5 Особенности распознавания имен и фамилий

Используемый морфологический словарь содержит порядка 500 различных имен, отчеств и фамилий, как русских, так и иностранных. Однако ясно, что этого явно недостаточно для уверенного распознавания этих очень важных элементов текста. Поэтому в рамках «постморфологического» анализа действует специальная программа распознавания фамилий. Одна основана на анализе окончаний и суффиксов, характерных для русских фамилий («ов», «ев», «ин», «ын» и др.), а также фамилий, часто встречающихся в русскоязычных текстах.

Были выявлены все встречающиеся в фамилиях суффиксы и с каждым суффиксом сопоставлена парадигма возможных окончаний. Отметим, что «суффиксы» и «окончания» – условные названия хвостов лексем, играющие определенную роль в распознавании фамилий.

Алгоритм программы сводится к следующему. Выявляется слово с прописной буквы. Для него в массивах окончаний ищется подходящее окончание, а для данного окончания – подходящий суффикс. Если эти проверки (плюс некоторые дополнительные) прошли успешно, то слову присваивается признак “f” – фамилия, и с помощью суффикса формируется каноническая форма этой фамилии.

С помощью данного алгоритма удается выявить основную массу встречающихся в текстах русских фамилий (по предварительным оценкам – до 90%). Однако фамилии европейского типа, или фамилий восточных и среднеазиатских народов (например, «Смит», «Линкольн», «Абу-Оглы») этим алгоритмом не охватываются. Тем не менее, в связи с нарастающей глобализацией, количество такого рода фамилий увеличивается с каждым годом. Поэтому в разработках ИПИ РАН применяются дополнительные словари тюркских имен и западных имен, которые увеличивают процент распознавания ФИО, но не могут охватить множество возможных вариаций.

4. Семантические методы извлечения имплицитной информации

Автоматическое извлечение из текстов ЕЯ имплицитной информации связано с решением сложных задач: выявлением информационных объектов и связей (в том числе, заданных в неявном виде), выявлением действий, в которых участвуют объекты, дополнением объектов новыми признаками на основе классификации и экспертных решений, идентификацией объектов путем анализа анафорических ссылок, и др. Решение данных задач осуществляется на синтактико-семантическом уровне: в процессе построения содержательного портрета (СС-документа) и его последующего анализа

Еще раз отметим, что качество решения во многом определяется блоком лексико-морфологического анализа – методами устранения неопределенностей, см. п.2 и п.3. Любые ошибки и неоднозначности на этом уровне сказываются на решении вышеупомянутых задач.

4.1. Задача «оценки» и «окраски» информационных объектов

Задача «оценки» и «окраски» связана с порождение новых признаков или свойств информационных объектов на основе текстов ЕЯ. Например, оценка стабильности предприятия по информации из Интернет, окраска политических деятелей (положительная или отрицательная) в зависимости от высказываний в прессе, оценка качества изделия по высказываниям пользователей и т.д. Часто напрямую не говорится – это плохо, а это хорошо. Как правило, в текстах ЕЯ описываются события, ситуации, в которых участвовал тот или иной информационный объект. По ним и делается оценка, которая зачастую представляется в виде нового (порожденного) свойства объекта. Частным случаем этой задачи является выявление ролевых функций объектов.

Для решения данной задачи используются различные методы [17,18]. Наиболее распространенный – метод выявления новых свойств объектов - путем использования синтактико-семантических форм. Например:

<что - лекарство> вызывает аллергию у <кого - человека>…,

<что – лекарство> имеет побочные эффекты…

<кто – человек> учинил скандал… и т.д.

Применение таких форм к текстам ЕЯ заключается в поиске «оценочных» или «характеристических» слов (типа «скандал») или словосочетаний типа «вызывает аллергию» («может вызывать аллергию»), «имеет побочные эффекты» («побочные воздействия»), «учинить скандал» («скандалить»)… И затем анализируется окрестность, т.е. слова, стоящие слева и справа, их семантические классы (по ним распознаются объекты) и падежные формы. В результате даются оценки информационных объектов. По первым двум формам - это «качество лекарств», а по последней - человек совершил «хулиганские действия» или что он «подозреваемый».

Использование синтактико-семантических форм связано с определенными трудностями, вызванными особенностями ЕЯ: наличием в текстах причастных, деепричастных оборотов, различных пояснений, факультативных компонент (время, место, цель), анафорических ссылок и многое другое. В результате информационные объекты часто оказываются на значительном расстоянии от оценочных слов. Отсюда – значительные потери, влияющие на качество оценивания.

Пример 1 (текст взят из сводок происшествий ГУВД г. Москвы):

… Горелов Петр Сергеевич,01.03.76 г/р, прож: г.Москва, ул.Юных Ленинцев, д.71-6-12,не работает, 01.02.1998 г. в 14.30 у своего дома из хулиганских побуждений в состоянии алкогольного опьянения учинил скандал и разбил оконное стекло в квартире Литвиновой Галины Ивановны,20.07.1961 г/р, …

В данном примере оценочные (характеристические) слова «учинил скандал» и «разбил оконное стекло» находятся на значительном расстоянии от оцениваемого лица – «Горелов Петр Сергеевич». Это ограничивает возможности применения форм. Требуется первоначальное выделение компонент, которые не должны учитываться в формах: годы рождения, адреса, свойства («не работает», «в состоянии алкогольного опьянения»), время, место и др., что предполагает достаточно глубокий анализ текста с выделением объектов, их свойств и атрибутов.

В связи со сказанным, более перспективным представляется другой метод – когда оценивание осуществляется на уровне структур знаний. Для их построения используется объектно-ориентированый ЛП, который осуществляет глубинный анализ текстов ЕЯ с приведением синонимичных групп к одному виду, выявлением объектов и их свойств, идентификацией объектов, выявлением и унификацией различных форм, представляющих события или действия (в том числе форм с отглагольными существительными, причастные и деепричастные обороты), которые связываются с временем и местом. В результате формируются структуры знаний, в которых объекты напрямую связываются с событиями и действиями, что исключает потери, о которых говорилось выше. Последующий анализ осуществляется с помощью правил языка ДЕКЛ, ориентированных на обработку таких структур (РСС), что делает простым процесс разработки программ «оценки» и реализации соответствующих правил анализа и вывода. При этом структура знаний не изменяется, а только пополняется новыми (полезными) фрагментами.

Проиллюстрируем предлагаемый метод применительно к задаче выявления ролевых функций лиц из сводок происшествий, взятых из области «Криминалистика». Имеется в виду задача присвоения лицам (по их участию в различного рода деяниях) свойств – «потерпевший», «подозреваемый» или «преступник», «заложник», если описание таких свойств отсутствует в тексте в явном виде. Например, если в тексте говорится «потерпевший Иванов И.И.», то возникает другая задача – выявление свойства в процессе лингвистического анализа и формирование соответствующего фрагмента в структуре знаний.

Как уже говорилось, в рамках предлагаемой методики (вместо применения синтактико-семантических форм к документам) используются правила логического вывода и преобразования структур знаний (СС-документов), в которых нет морфологических признаков (типа кто, кого,…), но с помощью фрагментов РСС представлены объекты и их участие в действиях. Имена таких фрагментов представляют характер действий. Например, в примере 1, где фигурантом является «Горелов Петр Сергеевич», его свойства и деяния представляются в виде фрагментов:

ПЬЯНЫЙ(<код фигуранта>)

БЕЗРАБОТНЫЙ(<код фигуранта>)

УЧИНИТЬ(<код фигуранта>,СКАНДАЛ)

РАЗБИТЬ(<код фигуранта>,ОКОННЫЙ,СТЕКЛО).

Выявление ролевых функций фигуранта сводится к анализу таких фрагментов. Анализ осуществляется с помощью логико-семантической оболочки, которая осуществляет необходимые преобразования фрагментов РСС и логический вывод. Оболочка состоит из продукций языка ДЕКЛ и управляется фрагментами РСС, образующие управляющие знания. Пример управляющих фрагментов:

РАЗБИТЬ(ОКНО,СТЕКЛО,ДВЕРЬ, …)

УЧИНИТЬ(ССОРА,СКАНДАЛ, …)

Первый фрагмент означает, что если фигурант разбил окно, стекло или дверь, то ему присваивается свойство, связанное с этим фрагментом, например, «подозреваемый». Правило реализуется в рамках оболочки, которая осуществляет поиск в СС-документа фрагмента с именем РАЗБИТЬ и наличием в нем одного из аргументов - ОКНО, СТЕКЛО, ДВЕРЬ, … Если данное условие выполняется, то к СС-документа добавляется фрагмент ПОДОЗРЕВАЕМЫЙ(<код фигуранта>). Это простейший случай.

В более сложных случаях учитываются отрицания, отношения принадлежности, совокупность действий. Например, «… ушла из дому … не вернулась …» или «… автомашина … под управлением … выехала на полосу встречного движения … произошло столкновение …». В последнем происшествии в действиях участвует автомашина, а «нарушитель» - это человек, который ей управляет.

Отметим, что в приведенных примерах (для простоты понимания) фрагменты записаны в виде предикатов. В реальной системе каждый фрагмент РСС имеет свой уникальный код, Такие коды используются для представления классов слов, словосочетаний и указания их связи с ролевыми функциями.

4.2 Выявление объектов и связей, заданных в неявном виде

Выявление объектов и связей осуществляется в процессе синтактико-семантического анализа – преобразования ПС-документа в структуру знаний, т.е. СС-документа, см. п. 1.3. Такой анализ заключается в последовательном применении правил выделения объектов или их компонент из текстов ЕЯ. Каждое правило ориентировано на выделение объектов определенного типа (фигурантов, адресов, организаций, …). Выделение объектов начинается с поиска характеристических слов. Например, для объектов типа «адрес» такими словами являются «город», «улица», «дом» и др. Далее, анализируется окрестность этих слов, выбираются допустимые слова, которые и составляют объект.

Довольно часто характеристические слова в тексте отсутствуют – подразумеваются. В таких случаях возникают трудности выделения объектов. Например, если в тексте встречаются лица с иностранными ФИО. У английских фамилий («Буш», «Блэк», «Барак», …) нет характерных суффиксов, как в русском языке, см. п. 3.5. Более того, в качестве фамилий может быть любое слово, называющее или определяющее какой-либо предмет внешнего мира. При анализе текстов ЕЯ такие фамилии вносят элементы неопределенности – омонимии. В азиатских языках компоненты ФИО – это просто слова с большой буквы («Ден Сяо Пин», «Хун Вай», …). В таких ФИО отсутствуют характеристические слова. Требуются другие методики выделения. Аналогично, адреса могут иметь вид – «Семеновская 2-44». Сказанное относится и к другим объектам.

Для выявления объектов без характеристических слов предлагается методика, основанная на принципе ожидания. Учитывается тот факт, что часто в ЕЯ после одних слов или объектов ожидается наличие других. Например, если после слова «инженер» стоит слово с большой буквы, то скорее всего, оно относится к ФИО. Таким образом, начинается выделение объектов, у которых не распознаны компоненты ФИО.

Реализация соответствующей методики осуществляется в процессе синтактико-семантического анализа. При этом используется оператор следующего вида:

GO_(<Правило 1>,<Правило 2>),

где Правило1 выявляет в тексте соответствующий объект. И если оно применилось (объект выявлен), то вызывается Правило 2, выявляющее ожидаемый объект.

Методика «ожидания» используется и при выделении связей между объектами, которые в явном виде не задаются. В текстах ЕЯ многие связи подразумеваются и привязаны к типу выявленных объектов. Например, если выявлен адрес, то скорее всего, он относится к какому-либо определенному лицу (или организации), которое нужно искать. При результативном поиске формируется новая связь.

На этом основана методика формирования новых связей. Она заключается в следующем. В процессе анализа текста строятся «временные» фрагменты, представляющие связи выявленных объектов с пока что неизвестными объектами, которые специальным образом отмечаются. В дальнейшем осуществляется их поиск. Если соответствующий объект не найден, то «временный» фрагмент удаляется из СС-документа. Если найден, то фрагмент остается и вводится в структуру СС-документа.

Поиск неизвестных объектов осуществляется на одном из этапов синтактико-семантического анализа и управляется с помощью фрагментов, с помощью которых задается направление поиска, количество шагов и условия окончания поиска - недопустимые слова, знаки или объекты.

Более детализированной описание методов, а также другие семантические методы выявления имплицитной информации предполагается рассмотреть в последующих работах.

Заключение

Автоматическое извлечение из текстов естественного языка (ЕЯ) имплицитной информации – это область искусственного интеллекта, связанная с развитием моделей языка, лингвистических процессоров (ЛП), методов устранения неопределенностей и принятия решений. Успешное решение этой сложнейшей задачи возможно лишь при комплексном подходе, когда анализ не сосредоточен в какой-то одной точке, а совершается постоянно, на всех уровнях работы ЛП.

В данной статье рассмотрен ряд методик, позволивших существенно продвинуться в данном направлении.

Практическая ценность выполненных работ определяется возрастающей потребностью автоматической формализации быстро растущих потоков документов на естественном языке, особенно в среде всемирной сети Интернет.

Литература

1. Igor Kuznetsov, Elena Kozerenko. The system for extracting semantic information from natural language texts // Proceeding of International Conference on Machine Learning. MLMTA-03, Las Vegas US, 23-26 June 2003 г., p. 75-80.

2. Кузнецов И.П. Семантико-ориентированная система обработки неформализованной информации с выдачей результатов на естественном языке // Сб. ИПИ РАН, Вып. 16, 2006 г., стр. 235-253.

3. Кузнецов И.П., Мацкевич А.Г. Семантико-ориентированные системы на основе баз знаний (монография) // М. МТУСИ, 2007 г.,173с.

4. Кузнецов И.П. Объектно-ориентированная система, основанная на знаниях в виде XML- представлений.// Сб. ИПИ РАН, Вып.18.М.: 2008 г., с. 96-118.

5. Kuznetsov I.P., Kozerenko E.B. Linguistic Рrocessor “Semantix” for Knowledge extraction from natural texts in Russia and English. Proceeding of International Conference on Machine Learning, ISAT-2008. 14-18 July, 2008 Las Vegas, USA// CSREA Press, 2008, p.835-841.

6. Падучева Е.В. Высказывание и ее соотнесенность с действительностью (монография) // М. Наука, 1985г.

7. Кондрашова Д.С. К проблеме классификации типов имплицитной информации // Материалы VIII Международной конференции ‘Cognitive Modelling in Linguistics’, Varna, 2005, Т. 1., стр. 245-252.

8. Asher, N. & Lascarides, A. Logics of conversation // Cambridge etc.: Cambridge university press, 2003.

9. Анохина Н.В. Роль пресуппозиции и импликации в процессе понимания научно-популярного текста // Вестник Башкирского университета. 2009. Т. 14. №1, - с.92-94

10. Пирогова Ю.К. Имплицитная информация как средство коммуникативного воздействия и манипулирования// Сб. Проблемы прикладной лингвистики, М 2001 г., стр. 209-227.

11. Кузнецов И.П., Сомин Н.В. Особенности лексико-морфологического анализа при извлечении информационных объектов и связей из текстов естественного языка // Вып.19. ИПИ РАН. 2009 г. – с.97-118.

12. Кузнецов И.П. Сомин Н.В. Англо-русская система извлечения знаний из потоков информации в среде Интернет // Сб. ИПИ РАН, 2007 г., стр.236-254.

13. Кузнецов И.П., Сомин Н.В. Средства настройки семантико-ориентированной системы на выделение и поиск объектов. // Системы и средства информатики, Вып. 18. ИПИ РАН, 2008 г. – с.119-143.

14. Кузнецов И.П., Сомин Н.В. Особенности лексико-морфологического анализа при извлечении информационных объектов и связей из текстов естественного языка. Вып.19. ИПИ РАН. 2009. – с.97-118.

15. Сомин Н,В., Кузнецов И.П., Мацкевич А.Г., Николаев В.Г.. Методы и средства настройки морфо-лексического анализатора на предметную область // Вып.19. ИПИ РАН. 2009.

16. Сомин Н.В., Соловьева Н.С.., Шарнин М.М. Система морфологического анализа: опыт эксплуатации и модификации // Системы и средства информатики, Вып. 15, 2005 г., стр. 20-30.

17. Banko M., M. Cafarella, S. Soderland, M. Broadhead, and O. Etzioni. Open Information Extraction from the Web // Proceedings of the 20th International Joint Conference on Artificial Intelligence (IJCAI-07), 2007. P. 2670–2676.

18. Clark P., P. Harrison, and J. Thompson. A Knowledge-Driven Approach to Text Meaning Processing // Proceedings of the HLT-NAACL 2003 Workshop on Text Meaning, 2007. P. 1–6.