| Главная Страница > Публикации | 
     Когнитивно-лингвистические представления в
системах  
                                        обработки
текстов
                             Е. Б. Козеренко[1],
И.П. Кузнецов[2]
Аннотация:
В работе рассматриваются вопросы
проектирования и развития семантико-синтаксических и лексико-семантических
представлений в лингвистических процессорах ряда систем, основанных на аппарате
расширенных семантических сетей. Системы этого класса создаются для извлечения
знаний из текстов на естественных языках, отображения извлеченных сущностей и
связей в структуры базы знаний и использования знаний для поддержки экспертных
аналитических решений в различных сферах приложения. В фокусе внимания
находятся инженерно-лингвистические представления, позволяющие построить
целостную работающую лингвистическую модель, которая модифицируется в зависимости
от конкретной задачи: от "тяжелой" формы на основе детальных
глубинных представлений до фокусных редуцированных оболочек, настроенных на
узкую предметную область и ограниченный язык общения. Особое внимание уделяется
способам описания дистрибутивно-трансформационных признаков языковых объектов.
Ключевые слова: интеллектуальные системы; семантические
представления; лингвистические процессоры; обработка естественного языка;
извлечение знаний
1 Введение
Данная работа посвящена проблемам создания когнитивно-лингвистических
моделей естественного языка для различных классов информационных систем и
описанию опыта создания лингвистических представлений для интеллектуальных
технологий обработки текстов.  Вопросы извлечения
знаний из текстов и создания модели естественного языка рассматриваются в
единстве. В центре нашего внимания находятся лингвистические процессоры
интеллектуальных систем, разработанных на основе аппарата расширенных семантических сетей (РСС) [1-3, 18-19]. Мы будем их
называть РСС-системы. Эти системы
создавались коллективом разработчиков, включая авторов данной статьи в
Институте проблем информатики РАН на протяжении целого ряда лет в рамках
исследовательских проектов и прикладных систем, ориентированных на конкретные
предметные области заказчиков. Мы выделяем 4 поколения РСС-систем. Когнитивно-лингвистические
представления, заложенные в основу систем этого класса, прошли определенный
эволюционный путь. 
Интеллектуальные РСС-системы содержат
развитые базы знаний, при этом знания
представлены в виде записей на языке расширенных семантических сетей,
называемых РСС-структурами.
Лингвистические знания, таким образом, являются частным случаем «знаний» и
также представлены в виде записей на языке расширенных семантических сетей.
Основным конструктивным элементом РСС является именованный N-местный предикат, называемый «фрагментом». Все множество языковых объектов задается в виде
системы предикатно-актантных структур, при этом поддерживаются механизмы
представления вложенных структур, что дает очень мощные изобразительные
возможности для описания  объектов
различных языковых уровней. Очень важным фактором является однородность и
единообразие лингвистических представлений. 
В процессе анализа и синтеза предложений
естественного языка используется формально-грамматический аппарат, сходный с
грамматиками зависимостей.  При этом
подходе опорными элементами  являются слова
и конструкции, выполняющие роль предикатов в предложении, и результатом анализа
предложения должен стать один предикат, 
соответствующий сказуемому рассматриваемого предложения (т.е. основному
глаголу в личной форме или другому основному предикатному выражению).  Таким образом, в процессе анализа происходит
выявление когнитивных опор
предложения: «слов-действий» и «слов-отношений», т.е. глаголов и других слов,
имеющих синтактико-семантические валентности. Примером «слов-отношений» могут
служить, например, слова «отец», «друг», и т.п., то есть, в данном случае
«отношения» (или функции – в терминах
языка логики предикатов 1-го порядка) - это слова, которые задают сильные, четко
выраженные синтактико-семантические ожидания. 
Семантический анализ в
инженерно-лингвистическом понимании – это процесс перевода естественно-языковых
выражений во «внутренние» структуры базы знаний (БЗ), в нашем случае этими «внутренними»
структурами являются записи на языке РСС. 
Таким образом, структуры БЗ – это код смысла в интеллектуальных
информационных системах подобного рода.  
В работе рассматриваются
инженерно-лингвистические решения в системах с «полным» лингвистическим
анализом – это системы 1-го и 2-го поколений: ДИЕС1, ДИЕС2, Логос-Д [2-3] и
системах с «фактографическим» подходом – интеллектуальных системах поддержки
аналитических решений (ИСПАР) [18-19], где целью анализа является выделение
сущностей и связей из текстов – это системы 3-го и 4-го поколений. 
2 Процесс концептуально-лингвистического  моделирования   в  
системах, основанных на аппарате РСС
2.1 Центральные    вопросы   семантического моделирования
Концептуально-лингвистическое моделирование
(КЛМ) – это процесс   построения    естественно-языковой    модели предметной   области 
(ПО)  (Рис.1),  синтезирующий 
в  себе подходы  концептуального  и 
лингвистического  моделирования
[1-3].      Построение     концептуально-лингвистической      модели некоторой   предметной области   подразделяется   на  
следующие  этапы:
    
-  построение  собственно 
концептуальной  модели, т.е. вычленение
 базовых понятий, организация 
их  в   родо-видовые деревья и определение
 связей между ними;
    
-  разработка    идеографического    словаря  
предметной области,  т.е.
лексическое наполнение концептуальной модели;
     
       
┌──────────────────────────────┐
 
┌─────┤1. Анализ исследуемых текстов │
 
│    
└──────────────────────────────┘
 
│
 
│    
┌──────────────────────────────┐
 
└────>┤2. Выделение основных понятий,│
 
┌─────┤   процессов и характеристик 
│
 
│    
└──────────────────────────────┘
 
│
 
│    
┌──────────────────────────────┐
 
└────>┤3. Конструирование модели ПО и│
       
│   словаря на основе
базовой  │
 
┌─────┤        "модели мира"         │
  │    
└────────────────┬─────────────┘
  │         
┌───────────┴──────────────┐
  │          │ Базовая "модель
мира" и  │
  │          │     модель языка         │
  │         
└──────────────────────────┘
  │
  │    
┌─────────────────────────────────┐
 
└────>┤4. Построение модели
родо-видовых│
 
┌─────┤   отношений между понятиями ПО  │
  │    
└─────────────────────────────────┘
  │    
┌─────────────────────────────────┐
 
└────>┤5. Формулирование
ситуационных   │
        │   правил в виде причинно-       │
        │   следственных зависимостей     │
| 
   | 
 
Рис.1.  Процесс концептуально-лингвистического
моделирования.
- ввод 
 базовых  правил, 
описывающих  на  естественном языке "модель мира",
релевантную для данной ПО.
    
Методика концептуально-лингвистического моделирования на основе аппарата
РСС базируется на следующих принципах:
·     
модель должна быть
"открытой", то есть 
поддерживать эффективный механизм расширения и обновления информации;
·     
модель  представления 
"смысла" должна учитывать факты  экстралингвистической реальности,  которые 
в  виде  правил и отношений составляют некоторую
базовую "модель мира", 
достраиваемую  конкретными
моделями предметных областей;
·     
модель   должна  
быть   практичной,  то 
есть  не перегруженной детальными
описаниями связей и отношений между понятиями, чтобы обеспечить возможность ее
реализации, но  в то  же время, отражать всю релевантную для
конкретной задачи информацию.
    
Реалистичный подход  к  постановке 
задачи  диктует необходимость   ограничения    моделируемого    подмножества естественного языка. Суть ограничений
сводится к следующему:
    
- во-первых,   анализируемые   текстовые  
материалы содержат экспертные знания из конкретных предметных областей
(в разработанных авторами системах это были такие предметные области как
диагностика  брака  при 
изготовлении микросхем, социальное прогнозирование,  криминалистика, и другие);
    
- во-вторых, в целях максимально возможного  устранения неоднозначности,  словарь 
строится  по модульному принципу:
есть некоторая наиболее общая часть 
(1-2  уровня),  которая достраивается  специальными 
словарями  для каждой отдельной
предметной области.
         
Предлагаемая модель лексической семантики основана на принципе
"ядерного" значения,  
реализуемого   в   контексте 
данной  предметной области,  с последующим индуктивным наращиванием других
значений (если  они  актуализируются  в 
рассматриваемых контекстах). Также 
используется  таксономия   которая реализуется  в  виде
иерархических деревьев классов слов. 
Общая 
"модель мира" системы служит основой для моделей ПО.
Элементами этой модели  являются классы
слов,  которые подразделяются  на -  понятия / имена, -
 отношения, -  действия, -  свойства, -  характеристики   действий,  - временные и
пространственные характеристики.
    
Самым   общим   понятием   
является  концепт,    или  универсальный   класс,  который 
подразделяется  на  объект,
ситуацию,  процесс  и  др.  
Слова, относящиеся  к 
классам  действий  и  отношений,
представлены  как
 семантико-синтаксические фреймы, 
задающие предикатно-актантные структуры (модель управления). Однако,
в  описываемом  подходе (назовем его РСС-подход) существенно
расширена  область  значений  
актантов.   Суть   расширения состоит,  во-первых, 
в  том,  что  в  роли 
актантов  могут выступать  не 
только   простые   объекты,  
соответствующие отдельным словам, 
но и структурные объекты, 
представляющие словосочетания и фразы, 
а во-вторых,  в  том, 
что  понятие
"падежа"  включает  в 
себя  не  только семантические,  но и синтаксические  признаки. 
Подход,  
основанный   на   РСС,  
позволяет   отражать произвольный   уровень  
вложенности   структур   за   
счет пропозициональных   
вершин    семантической    сети,   
что обеспечивает   
представление     сложных     синтаксических конструкций  фраз ЕЯ, а также позволяет отразить
структурный характер  лексической  семантики, 
которая  в   предлагаемой модели имеет
иерархически-сетевую структуру. Лингвистические знания представлены в системном
словаре и декларативных модулях лингвистического процессора. В РСС-системах
также реализована функция динамически формируемого семантического словаря,
который на основе исходной лингвистической информации достраивается системой
автоматически в процессе обработки конкретных текстов. На Рис. 2
представлено такое «внутреннее» описание глагола в семантическом словаре. Этот
словарь автоматически генерируется РСС-системами ДИЕС2, ЛОГОС-Д, ИКС в процессе
обработки естественно-языковых текстов.  
{(ВЫРАБАТЫВА895__)(DICSEM)
COORD(PROGNOZ1,RUS,ВЫРАБАТЫВА895__,S50_31_51_20,%) SUB(UNIV,0+) SUB(UNIV,1+) SUB(UNIV,2+)
ВЫРАБАТЫВ(0-,1-,2-/3+)
INFI(3-) ПРИДЕТСЯ(3-) ПРИДЕТСЯ(3-/4+) FUT1(4-) SUB(СРЕД,5+)
 Рис.  2.
Пример записи представления глагола «вырабатывать» в семантическом словаре.
2.2
Особенности применения аппарата РСС в когнитивно-лингвистическом моделировании
          Дадим    краткое   
описание    аппарата    расширенных семантических сетей и дадим
обоснование выбора именно  этого метода
представления для моделирования естественного языка. Классическое понятие   семантической  сети 
сводится  к следующему:  задаются 
некоторые  вершины,   соответствующие объектам.  Вершины 
связываются дугами,  которые помечаются
именами отношений.   Однако   с   помощью  
подобных сетей оказывается 
трудно  представлять  сложные 
виды информации, например,  когда
объекты,  связанные  отношениями, 
образуют агрегаты,   и   когда  
отношения  связываются  между 
собой отношениями  и  др. 
Поэтому  в  сети вводятся вершины,  соответствующие именам отношений, а также
специальный  композиционный  элемент, 
называемый   вершиной связи.  Вершина связи как  бы «разрывает»  дугу  и
подсоединяется одним ребром к вершине-отношению,  а 
другими ребрами - к вершинам-объектам. РСС является развитием такого
сорта  сетей   в  
направлении   повышения   изобразительных возможностей при сохранении
свойства однородности.
     Основой РСС является
множество вершин (V),  из  которых составляются элементарные фрагменты
(ЭФ) следующего вида:
   V0(V1,V2,...,Vk/Vk+1),
где V0,V1,V2,...,Vk,Vk+1  V, k > 0.
     Такой  фрагмент  
представляет   k-местное   отношение. Позиции  вершин в элементарных фрагментах (ЭФ)
определяют их роли. Вершина V0 ставится в 
соответствие  имени  отношения, вершины  V1,V2,...,Vk - объектам, участвующим в
отношении, а вершина  Vk+1,  отделенная 
косой   линией   (/),  
-   всей совокупности  упомянутых 
объектов  с учетом их отношения. В
дальнейшем будем Vk+1 называть C-вершиной элементарного фрагмента (ЭФ). Множество
ЭФ образуют  расширенную  семантическую 
сеть (РСС).  С помощью РСС
представляются наборы отношений, различные 
ситуации,  сценарии.   Сильной стороной   РСС-подхода  
является   возможность
однородного  представления  как предметной (концептуальной), так   и  
лингвистической   информации,   что  
обеспечивает эффективную     
обработку      знаний     и    
поддержание непротиворечивости 
базы  знаний.
    Посредством   РСС   
в    базе    знаний   
представлены лингвистические 
(ЛЗ)  и  предметные 
знания (ПЗ). Обработка этих 
знаний  осуществляется  продукциями 
языка  ДЕКЛ,   на котором реализованы следующие шесть
блоков: морфологического  анализа (МА),
семантического анализа слов (САС), 
синтактико-семантического анализа форм (ССА), прагматических    функций  
(ПФ), организации   системной
активности (БА) и обратный лингвистический процессор (ОЛП). С помощью продукций
осуществляется последовательное преобразование сети - РСС.  При 
этом  проходятся  фазы, 
соответствующие  уровню понимания
входного текста. Рассмотрим их.
     1. На   первом  
шаге   анализа  происходит 
построение пространственной 
структуры  предложения  с 
морфологической информацией 
для  каждого  слова. 
Каждый  член  предложения представляется вершиной
семантической сети.  Вместо слова  - 
генерируется  код  (если 
слово многозначно,  т.е.
принадлежит к нескольким классам,  - то
более одного  кода). Основой кода служит
корень слова.  На этом этапе предложение
представляется  в   виде  
набора   фрагментов   типа  
LRR (специальные метки результатов 1-го этапа анализа), объединяемых
в  целостную  структуру посредством вершины связи.
Результат 1-го этапа постоянно 
обращается  к  словарю: "Что значит данное слово?"
     2. На   втором  
этапе  каждой  вершине 
сопоставляется семантический класс и присваивается новый  код. 
За  словами (т.е.  конкретными 
вершинами  РСС)  система 
видит объекты, действия,  свойства  - 
то   есть,   строит 
классификации. Производится 
семантико-синтаксический  анализ
без выявления глагольных словоформ,  при
этом предложение представляется в виде совокупности  фрагментов 
типа SEM и SEMD (специальные метки результатов 2-го этапа анализа) (Рис. 3).
   
┌─────┐   ┌───┐   ┌───┐  
┌────┐   ┌───┐   ┌───┐   ┌───┐
   
│BEGIN├─O─┤SEM├─O─┤SEM├─O─┤SEMD├─O─┤SEM├─O─┤SEM├─O─┤END│
   
└─────┘   └───┘   └───┘  
└────┘   └───┘   └───┘   └───┘
Рис.
3. Семантико-синтаксический  анализ без
выявления глагольных словоформ.
3. На  третьем  этапе 
происходит частичное "сворачивание" синтаксических  структур 
в  более   компактные  
(например, свойство  объекта и сам
объект) с присваиванием нового кода, и строится 
фрагмент для объекта,  обладающего
эти свойством.
4. На четвертом этапе выявляются 
отношения  и  действия 
и   производится анализ  непосредственного контекста на соответствие
заданным семантическим падежам.  Система проверяет,
подходят ли объекты (концепты, 
понятия)  на  аргументные места данного действия или  отношения. 
При этом  отглагольные  существительные ("делатель" -
т.е.  агент действия, или
"делание" - процесс, анализируются как слова с двойной  природой 
-  вначале  как действия, 
а  затем  как 
объекты).  Результатом этого этапа
является  целостная  семантическая 
структура   предложения, которая
представляется фрагментом типа SEMSTR (метка результата 4-го этапа анализа) (Рис.
4).
      Программная                         Концептуальный
        система           ВКЛЮЧАЕТ          уровень
          │                  │                 │
          O                  O                 O
       
┌─┴──┐           
┌──┴──┐            ┌─┴──┐
   <────┤
SEM├─────>O<────┤SEMD
├─────>O<────┤SEM
├──────>
       
└────┘           
└─────┘            └────┘
           │      1    
┌────────────┐    2    
│
          
└─────────<──┤
ВКЛЮЧАЕТ  
├───>──────┘
                       
└────────────┘
                        
┌─────┴─────┐
              
O<────────┤  SEMSTR  
├───────>O
                        
└───────────┘
     Рис. 4. Целостная  семантическая 
структура   предложения.
5. На   пятом   этапе  
происходит  анализ  прагматики: установление    кореференциальных    отношений,    частичное восстановление эллиптических
конструкций, система производит дальнейшие действия с построенными фрагментами.
ДИЕС допускает ввод полисемичных форм глаголов. Для этого
следует воспользоваться формальной записью лингвистических знаний. В  системах, 
основанных  на  РСС,  
все   функции реализованы  на 
единой  основе - в рамках языков
РСС и ДЕКЛ, которые   были   разработаны  
с   ориентацией   на   
задачи обработки естественного языка.
3 Представление семантики глаголов,
глубинные и поверхностные структуры
В процессе анализа выявляются семантические
вершины предложения:  происходит
выявление «слов-действий», т.е. глаголов, и «слов-отношений».  Что же является конструктивной основой
задания семантических представлений предикатных слов и выражений? Как
убедительно показано в работе Ю.Д. Апресяна «Экспериментальные исследования
семантики русского глагола» [4], семантика глагола определяется его
дистрибутивно-трансформационными свойствами. 
Поэтому смысл предикатных выражений должен кодироваться с учетом  их дистрибутивных и трансформационных
признаков. 
Выдвинутая рядом лингвистов гипотеза (Хомский,   Филлмор)  
[5-8]   о  том, 
что  все  предложения 
имеют  глубинные  и поверхностные   структуры, явилась очень продуктивным
источником проектных решений при создании первых РСС-систем и развивалась в
дальнейшем.  В теоретико-лингвистическом
понимании глубинная   структура   -  
это абстракция,  содержащая  все  
элементы,   необходимые   для образования  поверхностных 
структур  предложений со сходной
семантикой. В инженерно-лингвистическом понимании глубинная структура – это
запись на языке базы знаний, например, на языке РСС, которая может быть
представлена в «поверхностном» виде на одном из естественных языков в
результате конечного числа определенных преобразований. Например, предложения
     
 (1) The programmer
writes the code.   (2) The code is written
by the programmer.
    
имеют истоком одну глубинную структуру:
Programmer
<───────── write
─────────> Code
    agent                             object
хотя и   отличаются  своими 
поверхностными  структурами.  В каждом из них имеется агент (the programmer),  объект (the code), 
и действие  (write).  Согласно 
концепции  падежной грамматики Филлмора [5], 
глубинная структура  для  обоих 
предложений инвариантна. Эту структуру можно представить в виде
скобочной записи V(AGENT, OBJECT).  В графическом виде глубинная структура
предложения также может быть представлена диаграммой в виде дерева, где
отражены инвариантные отношения зависимости между предикатной вершиной и
актантами (Рис. 5), при этом в таком представлении явным образом разграничиваются
 модальность
(MOD) и пропозиция (PROP):            
     
               S
  
┌───────────┴─────────────────────┐
 
MOD                              
PROP
  
│      
┌────────────┬────────────┴────────┐
  
│       V           OBJ                   AGENT
  
│       │     
┌─────┴─────┐          
┌───┴────┐
  
│       │      K          
NP          K        NP
  
│       │              
┌──┴──┐              ┌──┴──┐
 PRES    
write          the    programmer     the   
code
Рис. 5.  Глубинная структура  предложений.
     В исходном  виде 
[5] теория признавала шесть падежей: агентив,  инструменталис,   датив,  
объектив,   локатив   и фактитив. 
По  мере развития теории [8]
происходило увеличение числа падежей, однако «умножение»   количества  
падежей   утяжеляет
первоначальную    конфигурацию,   поэтому  
при   построении инженерных
семантических     представлений     требуется  
некоторый "компромиссный"  
вариант,  сочетающий  в 
себе  необходимую полноту, с одной
стороны, и простоту и гибкость, с другой.
4 Некоторые базовые аспекты построения многоязычных систем
     Одним из приоритетных
направлений развития РСС-систем является обеспечение обработки текстов на
нескольких языках, прежде всего, для русско-английской языковой пары. В
системах 2-го поколения – ДИЕС2, ИКС, ЛОГОС-Д были реализованы лингвистические
процессоры и словари для русского и английского языков, позволявшие
обрабатывать тексты для ряда предметных областей, также поддерживались режим
ввода лингвистических знаний лингвистом-аналитиком и автоматический режим
самообучения системы по вводимым текстам. Проводились также эксперименты для
итальянского и французского языков. При создании многоязычных систем мы
обращались к европейским языкам. Очевидно, что европейские языки обладают
большим  количеством  общих правил, 
чем любой из них с языками других групп. Но при этом все естественные
языки обладают общей  структурой на самом
глубинном уровне.  На этом уровне
располагаются   главные   элементы  
естественного    языка:
Предложение, Модальность, Пропозиция.
     Моделирование  смысловых 
представлений  -  это процесс, развивающийся в направлении
от  поверхностных  семантических структур   -   к   глубинным.  
Поиск   такого   внутреннего представления  смысла 
в  условиях   многоязычной   ситуации является  развитием 
методов 
концептуально-лингвистического моделирования на базе расширенных
семантических сетей. 
5 Интеллектуальные системы поддержки
аналитических решений
РСС-системы 3-го и 4-го поколений
направлены на извлечение знаний в виде объектов,
или сущностей, и связей между
ними из предметно-ориентированных текстов на русском и английском языках
[18-19].

Рисунок  6. 
Обобщенное функциональное представление систем ИСПАР. 
В настоящее время в мире активно ведутся работы по
созданию систем извлечения фактов из текстов на естественных языках [13-16],
создаются развитые тезаурусы и онтологии [17]. РСС-системы функционально шире,
поскольку помимо возможностей извлечения фактов поддерживают механизмы
логического анализа и экспертного вывода на основе извлеченных знаний. Системы
такого рода являются  интеллектуальными
системами поддержки аналитических решений (ИСПАР). В целом это направление
исследований требует дальнейшей проработки лексико-семантических представлений,
создания предметно-ориентированных семантических словарей. Обобщенное
функциональное представление систем ИСПАР дано на Рис. 6.  
В рамках ИСПАР на основе расширенных семантических сетей (ИСПАР-РСС)
были реализованы полномасштабные и пилотные проекты для ряда предметных
областей: криминалистики, управления кадрами, мониторинга
финансово-экономического кризиса, и других [18-19].
6 Применение аппарата РСС в лингвистических
исследованиях
В настоящее время в рамках проектов, направленных на создание
открытых лингвистических ресурсов [20] для научно-практических целей ведутся
работы по выравниванию параллельных текстов научных статей, патентов и
финансово-экономических текстов. В качестве одного из методов выравнивания  используется РСС-подход, поскольку он
позволяет отразить глубинно-семантический 
уровень языковых структур. На рисунке 7 представлен фрагмент первого
этапа лингвистического анализа в многоязычных системах – для «идеальной» ситуации,
когда структуры исходного текста и текста перевода практически совпадают, такая
ситуация имеет место в меньшинстве случаев. Основные трудности возникают при
наличии переводческих трансформаций в параллельных текстах. Особое внимание мы
уделяем глагольно-именным трансформациям, например, явлению номинализации, поскольку она очень
продуктивна для всех исследуемых нами языков.
    e.g. A software system includes
conceptual   level.
             │        │       │        │           │
             W1       W2     
W3       W4          W5
          
──O────────O───────O────────O───────────O────>
             │        │       │        │           │
       Программная
система включает концептуальный уровень.
       (Где WN обозначает словоформу с номером
N, 1=<N<=5.)
              Рис. 7.  Первый этап анализа параллельных текстов
Ключевой задачей при разработке методов
сопоставления параллельных текстов является выявление и детальное описание тех
языковых трансформаций, которые имеют место при переводе естественно-языковых
конструкций с одного языка на другой [9], потому что далеко не всегда некоторое
содержание передается структурно-подобными средствами в текстах на разных
языках. Сравнительное исследование употребления различных частей речи в
параллельных текстах на разных языках дает основу для выявления и описания
языковых трансформаций, при этом центральной трансформацией является номинализация. Явление номинализации
было исследовано в ряде работ отечественных и зарубежных лингвистов [9-12].
Ближе всего к нашему пониманию этого явления следующие определения
номинализации: «конструкции… называются номинализованными – в том смысле, что
их естественно рассматривать как результат номинализации конструкций с
предикативным употреблением глаголов и прилагательных»; «номинализация – это
синтаксический процесс, который соотносит предложения с именными группами».
Выявление номинализованных конструкций в параллельных научных и патентных
текстах на русском, английском, французском и немецком языках в научных и
патентных текстах и сопоставительное описание глагольно-именных межъязыковых
трансформаций – одна из центральных задач наших инженерно-лингвистических исследований.
Следующей базовой трансформацией в
исследуемых текстах на нескольких европейских языках является
адъективно-адвербиальное преобразование. Это означает, что при переводе с
одного языка на другой происходит синтаксическое преобразование  имен прилагательных в наречия и обратное
преобразование – наречий в прилагательные. Установление семантических
соответствий между этими языковыми объектами также возможно осуществить
посредством аппарата РСС. 
При семантическом выравнивании
непараллельных текстов, имеющих одну и ту же денотативную составляющую, аппарат
РСС позволяет выявить в текстах когнитивные опоры (слова с сильной валентностью
– «слова-действия» и «слова-отношения») и установить между ними семантические
соответствия.
7 Заключение
В данной работе представлен опыт создания и
развития когнитивно-лингвистических представлений в интеллектуальных
информационных системах,  разработанных
на основе аппарата расширенных семантических сетей (РСС). Аппарат РСС
обеспечивает мощные изобразительные возможности для описания всех уровней
естественного языка, включая уровень глубинно-семантических представлений, и
межъязыковых соответствий. Конкретные лингвистические процессоры, которые были
созданы на основе этого подхода, прошли определенный путь развития и позволили
выработать проектные решения для основных задач текущего этапа – извлечения и
обработки содержательных знаний из текстов на естественных языках и
сопоставления языковых структур в текстах на различных языках с учетом базовых
трансформаций.
Проблема извлечения и обработки знаний
открывает перспективы развития интеллектуальных направлений компьютерной
лингвистики, поскольку ее основной акцент смещен в сторону глубинных
представлений языка, в которых используются как грамматические (морфологические
и синтаксические), так и семантические атрибуты для описания языковых объектов.
Проводимые нами исследования параллельных текстов направлены также на
рассмотрение этой проблемы [20]. Центральное место в наших лингвистических
исследованиях занимает изучение и формализация процессов трансформации языковых
структур, особенно все варианты глагольно-номинативных трансформаций, создание
развитых дистрибутивно-трансформационных описаний предикатых структур для
рассматриваемых языков. 
Для задач извлечения знаний и создания систем
ИСПАР дистрибутивно-трансформационные описания имеют также особое значение,
поскольку таким образом задаются все возможные способы перевода языковых
структур в предикатно-аргументные представления, которые затем используются в
процедурах обработки знаний.
Литература
1. Кузнецов И.П. Семантические представления // Москва:
"Наука", 1986.  290с.
2. Козеренко Е.Б. Концептуально - лингвистическое моделирование  в среде интеллектуального редактора знаний
ИКС //  "Проблемы проектирования и
использования баз знаний." Ин-т  кибернетики им. В.М. Глушкова, Киев, 
3. Kozerenko E.B. Multilingual Processors: a Unified Approach to Semantic and Syntactic
Knowledge Presentation // Proceedings of the International
Conference on Artificial Intelligence IC-AI'2001. H.R. Arabnia (ed.), Las
Vegas, Nevada, USA, June 25-28, 2001. CSREA Press, 2001. P.1277-1282.
4. Апресян Ю.Д. Экспериментальное исследование семантики русского
глагола  // Москва: Наука, 1967. 252 с.
5. Филлмор Ч.  Дело о падеже // "Новое в зарубежной лингвистике". Вып. X.
М.:Прогресс, 1968. С. 369-495.
6. Хомский Н.  Аспекты теории
синтаксиса // Москва: Изд-во МГУ, 1972.
7.  Хомский  Н. 
Язык и мышление// Москва: Изд-во МГУ, 1972.
8. Fillmore C.  The
case for case reopened // P. Cole & J.Sadok,  Eds. 
Syntax and Semantics.  New York:
Academic Press. 1977.  Vol. 8. 
9. Жолковский А.К., И.А. Мельчук. О семантическом синтезе // «Проблемы
кибернетики», вып. 
10. Падучева Е.В. О семантике синтаксиса. Материалы к трансформационной
грамматике русского языка. Изд. 2-е. // Москва: КомКнига, 2007. 296 с. 
11. Jacobs R.A.
and P.S. Rosenbaum. English Transformational Grammar. // Blaisdell, 1968.
12. Балли Ш. Общая лингвистика и вопросы французского языка. Изд.
2-е, // Москва: УРСС, 2001.
13. Cunningham H.
Automatic Information Extraction // Encyclopedia of Language and Linguistics,
2cnd ed. Elsevier, 2005.
14. Han J.
and Kamber, M. Data Mining: Concepts and Techniques // Morgan
Kaufmann, 2006.
15. FASTUS: a Cascaded
Finite-State Trasducer for Extracting Information from Natural-Language Text.
// AIC, SRI International. Menlo Park. California, 1996. 
16. Han J.,
Pei Y. Yin, and Mao R. Mining Frequent Patterns without
Candidate Generation: A Frequent-Pattern Tree Approach,”  // Data Mining and Knowledge Discovery, 8(1),
2004. P. 53–87.
17. Добров Б.В., Лукашевич Н.В. Онтологии для автоматической обработки текстов:
Описание понятий и лексических значений // Компьютерная лингвистика и
интеллектуальные технологии: Тр. междунар. конференции Диалог’06, Бекасово, 31
мая – 4 июня 
18. Kuznetsov I.P.,
Efimov D.A., Kozerenko E.B. Tools for Tuning the Semantix Processor
to Application Areas // Proceedings of ICAI'09, Vol. I. WORLDCOMP'09, July
13-16, 2009, Las Vegas, Nevada, USA. - CRSEA Press, USA, 2009. P. 467-472.
19. Kuznetsov I.P.,
Kozerenko E.B., Kuznetsov K.I., Timonina N.O. Intelligent
System for Entities Extraction (ISEE) from Natural Language Texts //
Proceedings of the International Workshop on Conceptual Structures for
Extracting Natural Language Semantics - Sense'09, Uta Priss, Galia Angelova
(Eds.), at the 17 International Conference on Conceptual Structures (ICCS'09),
University Higher School of Economics, Moscow, Russia, 2009. P. 17-25.
20. Kozerenko E.B.
INTERTEXT: A Multilingual Knowledge Base for Machine Translation // Proceedings
of the International Conference on Machine Learning, Models, Technologies and
Applications, June, 25-28, 2007, Las Vegas, USA. – Las Vegas: CSREA Press,
2007. P. 238 - 243.