Принципы анализа компонент текста в семантико-ориентированном лингвистическом процессоре.

Принципы анализа компонент текста в семантико-ориентированном лингвистическом процессоре

Кузнецов Игорь Петрович (ИПИ РАН)

Введение

Рассматриваются принципы построения лингвистического процессора, использующего лингвистические знания (в виде семантических сетей) для глубинного анализа предложений русского языка с их отображением на предметные знания - семантические сети. Особенность системы - широкое использование в процессе анализа значений слов, т.е. их соотнесенность к классам родовидового дерева. Такие значения позволяют разрешать неоднозначности, связанные с полисемией глаголов, восстанавливать информацию, данную по умолчанию.

Экспериментальный вариант такого процессора реализован в рамках научных проектов ДИЕС и ИКС. Процессор читает тексты русского языка, извлекает из них семантическую информацию и автоматически формирует на этой основе структуры базы знаний (БЗ) - семантические сети.

В данной статье акцент будет смещен на представление лингвистических знаний. Синтактико-семантический анализ, основанный на специального вида продукционных грамматиках, будет рассмотрен на концептуальном уровне, см. п.6.

1. Семантические сети

В настоящее время имеется множество различных подходов и направлений в области компьютерной лингвистики и методов обработки естественного языка. В качестве модели языка предлагаются различные грамматики: реверсивные (T. Strzalkowski), категориальные (M.Moorgat), грмматики зависимости (И.А. Мельчук), функциональные (K. Halliday ), лексико-функциональные (J.Bresnan и др.) когнитивные (W.Langasker). Они используются для разбора предложений. Вводятся средства описания семантики: логика предикатов, лексическая семантика (J. Pustejovssky), ситуационная теория и ситуационная семантика (K. Devlin), различные виды семантических сетей. В качестве инструментальных средств предлагаются LISP, PROLOG и др. На этой основе написана энциклопедия (1992 г., ред. C. Shapiro, 1099 стр.).

Используемый нами подход не отрицает предыдущие. Это попытка привести методики, используемые на различных уровнях обработки языка, как бы к общему знаменателю. Для этого был введен аппарат специального вида семантических сетей [1] и инструментальные средства их реализации - язык ДЕКЛ [2]. Семантические сети используются для представления всех видов знаний, а средства их преобразования (продукции языка ДЕКЛ) - для реализации методик на различных уровнях обработки. Такая постановка позволила упростить процедуру построения сложной языковой системы, ориентированной на выявление предметных знаний за счет унификации методик, их перевода на единый уровень.

Итак, для представления предметных (ПЗ) и лингвистических знаний (ЛЗ) используются семантические сети. Их особенность заключается в следующем.

Во-первых, вводится множество "внутренних" вершин (констант), которые порождает сама система по мере необходимости и которые сопоставляются неименованным объектам. Они обозначаются числом (N) со знаком плюс и минус: N+ (означает, что вводится вершина) и N-(введенная вершина используется в другом месте).

Во-вторых, вся информация представляется в виде фрагментов. Это N-местные предикаты, в которые введена вершина (константа), соответствующая всей представленной в предикате информации. Будем называть такие предикаты фрагментами, а упомянутые вершины кодами фрагментов. Например, фрагмент ОТЕЦ(ИВАН1,ПЕТР1/S11) представляет, что объекты ИВАН1 и ПЕТР1 связаны отношением ОТЕЦ и что этой связанной паре ставится в соответствие код фрагмента S11.

Отметим, что одно и тоже предложение представляется с помощью семантических сетей по-разному на различных уровнях. Будем различать два из них: уровень поверхностных структур (ПС) и уровень семантических структур (СС). Уровень СС - это сети, представляющие факты и отношения, т.е. предметные знания (ПЗ). Задача прямого лингвистического процессора - преобразование сети с первого уровня на второй.

С помощью фрагментов на уровне СС представляются свойства, отношения, действия, а с помощью кодов фрагментов - факультативная информация: время, место действия и др. Например, предложение ТРОШКИН НЕДАВНО ДАЛ ВЗЯТКУ СУДЬЕ представляется на уровне СС с помощью фрагментов:

ФАМИЛИЯ(ТРОШКИН,17+) SUB(СУДЬЯ,19+)

ДАВАТЬ(17-,19-,28+/29+) TIME(НЕДАВНО,29-)

Здесь людям сопоставляются внутренние вершины (17+ и 19+), потому что неизвестно, о каком ТРОШКИНЕ и СУДЬЕ идет речь. Вершины 17- и 19- сопоставлены тем же людям. Знак минус говорит о том, что вершины уже были введены. Время подсоединено к коду фрагмента (вершине 29-), так как характеризует всю ситуацию. С помощью фрагментов типа SUB представляется принадлежность к классам или понятиям. такие фрагменты образуют SUB-дерево, например, SUB(ЧЕЛОВЕК,СУДЬЯ) и т.д..

2. Представление слов и словоформ

Для представления лингвистических знаний (ЛЗ) также используются семантические сети. Это позволяет выявлять семантическую информацию и вести ее дальнейшую обработку на одном и том же уровне - в БЗ. Соответственно, для этого используются единые инструментальные средства - язык ДЕКЛ [1].

Представление ЛЗ отражает особенности словообразования и семантики естественного (русского) языка. Каждому слову, имеющему определенный смысл, сопоставляется свой "код". С его помощью задается значение слова, т.е. что это: концепт, отношение, действие, свойство и др. (см. ниже).

В предметных знаниях участвуют только коды слов. При этом слова одного смысла или слова-синонимы имеют один код. Например, если при вводе слов ИЗБА, ХАТА было указано, что они обозначают одно и тоже, то им сопоставляется один код - ИЗБ. Обычно, это корень первого слова. Если такой код уже был, то к корню добавляются спецсимволы - ИЗБ^. Пользователь может задавать такие коды при вводе слов, например, в качестве кода ввести HOUSE. Слова имеют собственные флективные классы, определяющие их окончания в различных падежных формах. В данном случае оба слова имеют одинаковые флективный классы.

Глагол, его отглагольные существительные, причастия и деепричастия имеют один код и одно и тоже значение. Это слова-действия, которые используются в том или ином виде в зависимости от синтаксической конструкции предложения. Одно и тоже можно сказать по-разному.

Например, слово-действие ВЫВОДИТЬ представляется в ЛЗ со всеми своими словоформами и отглагольными существительными. При этом глаголам ВЫВЕДИ (в различных формах), ВЫВЕСТИ, ВЫВЕДЕН, ВЫВОДИ и отглагольному существительному ВЫВОД (в различных падежах) сопоставляется один код. Но они будут иметь свои флективные классы. Для них также указывается время и форма. Варианты форм: обычная, инверсная, ситуативная (с помощью отглагольного существительного задается ситуация), субъектная (с помощью отглагольного существительного задается субъект действия), повелительная (приказная), инверсная (сострадательное наклонение).

Со словами-действиями в ЛЗ связываются фрагменты, определяющие допустимый контекст: форму, управляемую данным глаголом. Отметим, что у полисемичных глаголов (например, ВЫВЕСТИ ИЗ ЗАЛА) коды и контексты будут различаться. Именно коды слов используются в предметных знаниях, где полисемичные глаголы (они выражают различные действия) будут представлены по-разному.

3. Значения слов и словосочетаний

Особенность семантико-ориентированной системы - что за словами и предложениями русского языка она пытается "видеть" объекты и отношения между ними, т.е. выявить все упоминающиеся в предложениях факты. Для этого системе нужно знать, что значит каждое слово (как и человеку). Для системы типовое деление слов (прилагательное, существительное, глагол и др.) определяет лишь набор грамматических категорий и словоформ, по которым нужно анализировать контекст и выделять объекты и отношения между ними (в широком смысле, когда допустимы унарные и N-арные отношения).

При вводе каждого нового слова пользователю нужно отнести его к одной из следующих семантических категорий, определяющих значения:

- понятие, имя, название;

- отношение;

- действие;

- свойство, признак;

- время, место, хар-ка действия;

- что-либо другое.

Такое соотнесение осуществляется через систему меню-анкет. Далее нужно ответить на запрос "Что значит слово +>", где уточняется его место в SUB-дереве и дается контекст, см. ниже. После этого запрашиваются и вводятся окончания.

Другой способ указания значения - вводом формальной записи. Например:

ДОМ/М - СТРОЕНИЕ, <указываются окончания>.

Здесь косая линия отделяет корень слова от рода М - мужской. Дефис служит для указания принадлежности к классу.

Рассмотрим интерпретацию вышеупомянутых семантических категорий и формируемые фрагменты лингвистических знаний (ЛЗ).

Если вводится новое понятие, то нужно указать более общее понятие (класс, вершину) SUB-дерева, к которому оно относится.

Например, вводится: РЕБЕН/СР - ЧЕЛОВЕК.

Универсальное понятие - КОНЦЕПТ.

Если вводится новое имя или название, то в его значении также указывается класс, к примеру, ИМЯ ЧЕЛОВЕКА, ФАМИЛИЯ МУЖЧИНЫ, НАЗВАНИЕ ОРГАНИЗАЦИИ. В дальнейшем система будет расшифровывать введенное слово как нечто, относящееся (в первом случае) к классу ЧЕЛОВЕК и имеющее данное имя.

Например, при вводе БОРИС/М - ИМЯ МУЖЧИНЫ система слово БОРИС будет каждый раз расшифровывать как МУЖЧИНА с именем БОРИС.

Другая возможность: НОГ/Ж - ЧАСТЬ ТЕЛА. Тогда система будет считать, что НОГА относится к вершине SUB-дерева, связанной отношением ЧАСТЬ с понятием ТЕЛО.

При вводе слов-действий задается контекст. При этом классы и падежи слов, входящих в контекст, указываются в явном виде. Например,

РЕШ/ - ДЕЙСТВИЕ, КТО-ЧЕЛОВЕК,СИСТЕМА ЧТО-ЗАДАЧУ.

Система использует контекст в процессе синтактико-семантического анализа. Классы играют важнейшую роль при разрешении случаев полисемичности глаголов, а также синонимичности стоящих в его окрестности слов. При этом учитываются трансформации (в случае отглагольных существительных), возможность факультативных компонент - слов, выражающих время, место, цель и др.

Для каждого слова, входящего в контекст, можно указать несколько возможных падежей и классов. При этом в контекст лучше вводить только наиболее существенные или определяющие слова: обычно это субъект, объект, направленность действия или результат.

В системе допускается ввод полисемичных форм глаголов.

Например, можно ввести запись:

ВЗЯЛ/- ДЕЙСТВИЕ, КТО-ЧЕЛОВЕК КОГО,ЧЕГО-ВЕЩЬ;

ВЗЯЛ/- ДЕЙСТВИЕ, КОГО-ЧЕЛОВЕКА ЗА ЧТО-ПРЕСТУПЛЕНИЕ.

Тогда система будет по-разному понимать предложения типа ИВАН ВЗЯЛ ТОПОР и ИВАНА ВЗЯЛИ ЗА КРАЖУ. И соответственно, система будет на уровне СС строить различные фрагменты, представляющие особенности действия.

При вводе слов-отношений системе также необходимо задать контекст: падежи и классы стоящих рядом слов. Возможно простое указание: ОТЕЦ/М - ОТНОШЕНИЕ МЕЖДУ МУЖЧИНОЙ И ЧЕЛОВЕКОМ. Тогда берется стандартный контекст:

КТО - МУЖЧИНА ОТЕЦ КОГО - ЧЕЛОВЕКА.

Другой вариант, когда падежи указываются в явном виде (как для слов-действий).

При вводе слов, выражающих признаки или свойства, указывается класс предметов, которые могут обладать данным свойством. Например, для слова УМНЫЙ можно указать: УМН/- СВОЙСТВО ЧЕЛОВЕКА.

Отметим несколько важных моментов. Во-первых, указание на классы слов, входящих в контекст, широко используется в процессе синтактико-семантического анализа и позволяет устранять многие неоднозначности. В тоже время, системе приходится постоянно расширять такие классы, чтоб учесть многие случаи типа УМНОЕ РЕШЕНИЕ или ПОЕЗД ИДЕТ В ДЕПО.

Во-вторых, для всех слов допускается указание значений по аналогии. Например, для слова ОТЕЦ можно указать +> КАК ДЕД. Тогда новое слово берет класс (и контекст) уже известного.

В-третьих, для всех слов при указании их значений допускается ссылка на синоним. В качестве значения нового слова ввести +> СИНОНИМ <известное слово>. Тогда первому слову будет присвоен код второго.

4. Ввод флективных классов

Окончания запрашиваются у пользователя в зависимости от значения слова. При этом запрашиваются лишь словоформы, определяющие флективный класс. Для слов, выражающих понятие, имя, название или отношение, запрашиваются падежные формы.

В зависимости от введенных окончаний, формируется флективный класс (или берется уже известный). Сам флективный класс тоже представляется в виде фрагментов.

Например, после ввода окончаний со словом ИЗБА будут связаны следующие лингвистические знания (в формальной записи):

ИЗБ/Ж - ДОМ, -А,-Ы,-У,-Е,-ОЙ,-Е,-Ы.

Для слов-действий запрашиваются их корни и окончания для различных форм глагола. В результате формируется флективный класс (или берется уже известный, хотя для глаголов это большая редкость), который связывается с кодом слова-действия. С ним также связываются время и форма глагола.

Для отглагольных существительных (в двух последних случаях) запрашиваются падежные формы, как было рассмотрено выше. В результате формируются или уточняются флективные классы, которые также представляются в виде фрагментов.

Для слов-свойств предлагается выбор типа окончания:

1. Как КРАСНЫЙ (краснЫЙ, краснОГО)

2. Как СИНИЙ (синИЙ, синЕГО)

3. Как БОЛЬШОЙ (большОЙ, большОГО)

4. Как ЗВОНКИЙ (звонкИЙ, звонкОГО)

5. Другого типа

В зависимости от выбора слово относится к одному из четырех флективных классов: ЫЙОГО, ИЙЕГО, ОЙОГО и ИЙОГО. Для прилагательных русского языка этого достаточно. В каждом таком классе с окончаниями связывается род-число-падеж, что представляется с помощью фрагментов. Здесь также представляются не только формы прилагательного (например, ЗВОНКИЙ), но и производные слова: наречия (типа ЗВОНКО), существительные (типа ЗВОНКОСТЬ) и др.

Отметим, что в перечисленных примерах запрашивается неполный набор окончаний. Однако, во многих случаях этот набор определяет остальные окончания - в других формах. Помимо этого, используется стандартный набор окончаний: для типовых форм глаголов, для существительных во множественном числе и др. Например, стандартные окончания глаголов в наст.вр.: ЕТ, ИТ, ЯЕТ, УТ,... (наст.вр.)

Помимо этого, учитываются возможные варианты изменения

окончаний (например, ИТ на ЮТ, ЯТ, ...) с трансформацией времен и форм. Например: ЗАВИС/ИТ ЯТ, ДЕЙСТВ/ИЕ ИЮ ИЯМ,... Учитываются и родовые окончания глаголов: СДЕЛАН/А, СДЕЛАН/О,...

С окончаниями отглагольных существительных (типа ВЗЯТИ/Е, ВЗЯТИ/Я, ПОКУПК/А) связывается форма (ситуативная или субъектная), флективный класс и род.

Перечисленных средств оказывается достаточно для выявления грамматических категорий слов путем анализа окончаний с учетом значений слов.

5. Особенности представления морфологичеких и грамматических категорий

Особенности представления определяются необходимостью выявления семантических компонент уже в процессе морфологического анализа.

Для приставок может быть указана семантическая категория слов, для которых эти приставки допустимы, и что они значат, т.е. как они видоизменяют значения слов. Например: НЕ, БЕЗ, БЕС - NOT (для слов-действий означает отрицание); СУПЕР, СВЕРХ - SUPER и др.

Для суффиксов указывается флективный класс (каждый суффикс навязывает свои окончания) и категория слов. Рассмотрим ряд примеров.

Типовые суффиксы глаголов: ОВА, РОВА, ИРОВА, ИЗИРОВА,...

Суффиксы для существительных и отглагольных существительных (только в субъектной форме): ЩИК, ЙЩИК, ЧИК, ЧИЦ,...

Суффиксы для отглагольных существительных в ситуативной форме: СТВ, ЦИ, ИЗАЦИ, НИ,...

Суффиксы причастий с указанием флективных классов и времени: ВШ, ВЩ,... - кл. ИЙЕГО, прош.вр.; ИМ, ОМ, ... - кл. ЫЙОГО, наст.вр.

Суффиксы причастий (точнее, глаголов в форме причастий) с указанием времени: Я, АЯ, ЯЯ,... - наст.вр.; В, ВШ, ... - прош.вр.

Суффиксы для глаголов (слов-действий) в инверсной форме с указанием флективных классов: ЩЕН, ЩЕНН, АНН, ОВАНН,...

Суффиксы прилагательных (слов-признаков) с указанием флективных классов: Н, ЬН, ВН, ИВН,.... - кл. ЫЙОГО.

В ЛЗ имеются также уменьшительные суффиксы (ОЧК, ЕЧК, ЕНЬК, УШК,...), специальные суффиксы для фамилий и отчеств (ОВ, ЕВ, ИН,..., ЕВИЧ, ОВИЧ, ОВН,...). Информации, представленной в фрагментах, достаточно для глубокого морфологического анализа.

Предлоги представляются как слова без окончаний. Их коды могут совпадать. Например, если для слова ВСЛЕДСТВИЕ ввести код ВВИДУ, тогда эти предлоги будут рассматриваться как одно и тоже. В ЛЗ учитываются варианты видоизменения предлогов в зависимости от контекста: ВО -> В, СО -> С. Представляются также предлоги в сочетании с вопросительными словами: С КЕМ, В КОМ, НА КОМ, О КОМ,... Это необходимо для обратного лингвистического процессора.

Союзы представляются с указанием их значений: ИЛИ, ЛИБО - OR (или); И, ДА, "," - AND (и). Отметим, что запятая в определенном контексте может рассматриваться как союз.

Обозначения типа СТР., КГ,... могут рассматриваться как отдельные слова или как сокращения. В последнем случае даются ссылки на полные слова: ТЕЛ - ТЕЛЕФОН, ТОВ - ТОВАРИЩ, КГ КИЛОГРАММ, ТЫС - 1000,... Такие ссылки вводятся как коды слов.

Связанные лексемы - это устойчивые словосочетания и обозначения, имеющие самостоятельное значение. Они не требуют морфологического анализа. Их нужно уметь выделять из текста и либо не учитывать, либо давать им единое значение. Они служат для представления различных категорий. Рассмотрим примеры:

- словосочетания, которые не учитываются (КРОМЕ ТОГО, БОЛЕЕ ТОГО, ДЛЯ ЭТОГО, ПРИ ЭТОМ, ТЕМ,БОЛЕЕ,...);

- составные предлоги (В РАЗМЕРЕ, В РЕЗУЛЬТАТЕ,...);

- устойчивые сочетания со ссылкой на код заменяющего их

слова (ПО КЛИЧКЕ - КЛИЧК, ПО ИМЕНИ - NAME, С ФАМИЛИЕЙ ФАМИЛИЯ,...);

- сокращения с дефисом (типа ПР-К, ГР-КА) с указанием кода

слова и недостающих букв (ЕСТУПНИ, АЖДАН,...);

- сокращения с точкой в конце (Д., УЛ., РИС,...) с указанием кода полного слова (ДОМ, УЛИЦ,...).

6. Этапы работы семантико-ориентированного лингвистического процессора

Напомним, что задача прямого лингвистического процессора -преобразование сети с уровня ПС на уровень СС (структур БЗ). Задача решается по этапам.

Этапы работы семантико-ориентированного лингвистического процессора [3,4]:

Этап 1: лексический анализ, выделение элементов текста: знаков препинания, чисел, констант (это различные обозначения, которые не являются словами и не требуют морфологического анализа) и слов.

Этап 2: морфологической анализ слов. Вначале выделяются лексемы (предлоги, союзы и др.) и связанные лексемы (типа КРОМЕ ТОГО, СМ., РИС...), не требующие анализа. Остальные слова подвергаются разбору, который сводится к поиску:

- корней и согласованных окончаний (по корням выбираются флективные классы, задающие допустимые окончания);

- корней, суффиксов и правильных окончаний (по суффиксам выбираются флективные классы, задающие допустимые окончания);

- приставок и корней (с суффиксами или без них) и правильных окончаний.

При этом просматриваются все варианты (даже если в каком-либо из трех случаев были результативные варианты).

Если результативный вариант имеет место, то формируются фрагменты уровня ПС, представляющие грамматические категории слова. Для глаголов (слов-действий, кроме форм отглагольных существительных) это время и форма глагола. Для существительных (слов-понятий, слов-отношений, слов-признаков) это род-число-падеж. Тоже самое - для отглагольных существительных. Для глаголов в форме причастий - и то и другое.

Система дает много вариантов разбора. Во-первых, при одном и том же окончании могут быть различные падежи - ОКНА (кого-чего ед.ч. или кто-что мн.ч.). Во-вторых, возможны случаи омонимии (ДРУГОМ - это может быть ДРУГ или же ДРУГОЙ) или полисемии, см. выше. Тогда строятся и рассматриваются параллельные варианты. И в-третьих, при разборе слова могут быть выделены различные корни с правильными окончаниями, например, ИВАН/ОВ (чей ед.ч. и кто-что мн.ч. от слова с корнем ИВАН) и ИВАНОВ/ (кто-что ед.ч. от фамилии). В этом случае также строятся параллельные варианты.

Отметим, что варианты, которые порождаются блоком морфологического анализа, отсекаются на уровнях анализа словосочетаний и синтактико-семантического анализа, т.е. за счет использования семантических категорий и контекста.

Если результативного варианта не удалось найти, то система делает попытки использовать стандартные наборы окончаний, заданные для соответствующих категорий слов.

Если результативных вариантов нет из-за неправильных окончаний (а корни найдены), то система берет наиболее длинный корень и дает слову "обобщенные" грамматические категории. Они позволяют проводить дальнейший анализ, не обращая внимания на падежи, числа и т.д.. Считается, что слово обладает любой из категорий.В результате обеспечивается возможность работы с текстами, содержащими ошибки в окончаниях слов или же имеющими словоформы, которые не были учтены при вводе слова.

Этап 3: выделение значений слов с анализом генетивных цепочек и построением простых фрагментов семантической сети (уровня СС). Система пытается проанализировать, что выражается с помощью словосочетания и представить это в виде фрагментов.

Например, словосочетание УМНЫЙ ИВАН будет заменено на НЕКТО, ОТНОСЯЩИЙСЯ К КЛАССУ МУЖЧИН, ОБЛАДАЮЩИЙ СВОЙСТВОМ УМНЫЙ И ИМЕЮЩИЙ ИМЯ ИВАН. Такому НЕКТО будет сопоставлена своя вершина (1+), которая:

SUB(МУЖЧИНА,1-) УМНЫЙ(1-) ИМЯ(ИВАН,1-)

Фактически, словосочетание будет свернуто и заменено на вершину 1-, к которой перейдут грамматические категории слова ИВАН.

Этап 4: анализ словосочетаний на предмет выявления того, что дано по умолчанию. Здесь используются определения типа:

ДОМ ИЗ ДЕРЕВА ЗНАЧИТ ДОМ, КОТОРЫЙ СДЕЛАН ИЗ ДЕРЕВА;

ДОМ КНИГИ ЗНАЧИТ ДОМ, В КОТОРОМ ПРОДАЮТ КНИГУ,

Система при анализе таких словосочетаний будет восстанавливать недостающие отношения (СДЕЛАТЬ, ПРОДАВАТЬ), которых в явном виде не было в тексте. При этом система будет понимать словосочетания:

КНИЖНЫЙ ДОМ ИЗ ДЕРЕВА

ДЕРЕВЯННЫЙ ДОМ КНИГИ

КНИЖНЫЙ ДЕРЕВЯННЫЙ ДОМ,

которые на уровне СС будут расшифровываться и представляться как НЕЧТО, ЧТО ОТНОСИТСЯ К КЛАССУ ДОМОВ, ЧТО СДЕЛАНО ИЗ ДЕРЕВА И В ЧЕММ ПРОДАЮТ КНИГИ. Этому НЕЧТО будет сопоставлена своя вершина, которую система будет "видеть" вместо словосочетания.

Этап 5: синтактико-семантический анализ предложения. В определенной последовательности выделяются слова-отношения и слова-действия. По ним устанавливается ожидаемый контекст, в соответствии с которым анализируется их окрестность, т.е. стоящие рядом слова. В результате строятся фрагменты, уровня СС, представляющие предметные знания - ПЗ. Такой анализ облегчается тем, что словосочетания уже проанализированы, по ним построены соответствующие фрагменты сети. Вместо словосочетаний в окрестности стоят отдельные вершины упомянутых фрагментов, которые (вершины) нужно связать между собой.

Если система не может выполнить правильный анализ по причине грамматической несогласованности слов в рамках ожидаемого контекста (например, слова стоят в других падежных формах), то делается попытка отвлечься от грамматических категорий. Внимание переносится на семантические классы, указанные в контексте. В результате обеспечивается понимание осмысленных, но неправильно построенных предложений типа МОЯ ТВОЯ НЕПОНИМАЙ.

Заключение.

Семантико-ориентированный лингвистический процессор основан на специальным образом организованных лингвистических знаниях - в виде семантических сетей. Он использует оригинальные методики различных видов анализа: морфологического, выделение значений слов с анализом генетивных цепочек, анализ словосочетаний с выявлением того, что дано по умолчанию, синтактико-семантический анализ предложения [3]. Более подробное их описание требует введения в продукционные грамматики и значительного дополнительного материала, что выходит за рамки объема данной статьи.

Описанный лингвистический процессор нашел применение в рамках интеллектуальных систем ДИЕС и ИКС для задач фактографического поиска, принятия решений, логического вывода [4].

Литература

1. Кузнецов И.П. Механизмы обработки семантической информации. М. Наука, 1978. 175 с.

2. Кузнецов И.П. Пузанов В.В., Шарнин М.М. Система обработки декларативных структур знаний ДЕКЛАР-2. Москва, ИПИАН, 1988 г.

3. Кузнецов И.П., Козеренко Е.Б. Поиск языковых универсалий для лингвистического моделирования на расширенных семантических сетях.//Труды Междунар. семинара Диалог'99 по компьютерной лингвистике и ее приложениям: В 2 т. Т. 2./Под ред. А.С. Нариньяни. 1999. - С. 157-164.

4. Кузнецов И.П., Козеренко Е.Б., Шарнин М.М. Семантико-ориентированная система фактографического поиска со входом на русском и английском языках.//Труды Междунар. семинара Диалог'98 по компьютерной лингвистике и ее приложениям: В 2 т. Т. 2./Под ред. А.С. Нариньяни. - Казань: ООО "Хэтер", 1998. - С. 821-830.