Главная Страница > Публикации

Эволюция лингво-семантических представлений в интеллектуальных системах на основе расширенных семантических сетей

 

Evolution of Linguistic Semantic Presentations in the Intelligent Systems Based on the Extended Semantic Networks

 

 

Козеренко Елена Борисовна (kozerenko@mail.ru),

Кузнецов Игорь Петрович (igor-kuz@mtu-net.ru)

Институт проблем информатики РАН, Москва

 

В работе рассматриваются вопросы проектирования и развития семантико-синтаксических и лексико-семантических представлений в лингвистических процессорах ряда систем, основанных на аппарате расширенных семантических сетей (РСС). Системы этого класса, далее, РСС-системы, создаются для извлечения знаний из текстов на естественных языках, отображения извлеченных сущностей и связей в структуры базы знаний и использования знаний для поддержки экспертных аналитических решений в различных сферах приложения. В фокусе внимания находятся инженерно-лингвистические представления, позволяющие построить целостную работающую лингвистическую модель, которая модифицируется в зависимости от конкретной задачи: от "тяжелой" формы на основе детальных глубинных представлений до фокусных редуцированных оболочек, настроенных на узкую предметную область и ограниченный язык общения. Особое внимание уделяется способам описания дистрибутивно-трансформационных признаков языковых объектов.

 

1. Введение

 

Данная работа посвящена вопросам создания инженерно-лингвистических моделей естественного языка для построения лингвистических процессоров различных классов информационных систем.  В центре нашего внимания находятся интеллектуальные системы, разработанные на основе аппарата расширенных семантических сетей (РСС). Интеллектуальные РСС-системы содержат развитые базы знаний, при этом знания представлены в виде РСС-структур. Лингвистические знания, таким образом, являются частным случаем «знаний» и также представлены в виде записей на языке расширенных семантических сетей. Основным конструктивным элементом РСС является именованный N-местный предикат, называемый «фрагментом». Все множество языковых объектов задается в виде системы предикатно-актантных структур, при этом поддерживаются механизмы представления вложенных структур, что дает очень мощные изобразительные возможности для описания  объектов различных языковых уровней. Очень важным фактором является однородность и единообразие лингвистических представлений.

В процессе анализа и синтеза предложений естественного языка используется формально-грамматический аппарат, сходный с грамматиками зависимостей.  При этом подходе опорными элементами  являются языковые объекты, выполняющие роль предикатов в предложении, и результатом анализа предложения должен стать один предикат,  соответствующий сказуемому рассматриваемого предложения (т.е. основному глаголу в личной форме или другому основному предикатному выражению).  Таким образом, в процессе анализа, в первую очередь, происходит выявление «слов-действий» и «слов-отношений», т.е. глаголов и других слов, имеющих синтактико-семантические валентности. Примером «слов-отношений» могут служить, например, слова «отец», «друг», и т.п., то есть в данном случае «отношения» - это слова, которые задают сильные четко выраженные синтактико-семантические ожидания.

Семантический анализ в инженерно-лингвистическом понимании – это процесс перевода естественно-языковых выражений во «внутренние» структуры базы знаний (БЗ), в нашем случае этими «внутренними» структурами будут записи на языке РСС.  Таким образом, структуры БЗ – это код смысла в интеллектуальных информационных системах. 

В работе рассматриваются инженерно-лингвистические решения в системах с «полным» лингвистическим анализом – ДИЕС1, ДИЕС2, Логос-Д и системах с «фактографическим» подходом – интеллектуальных системах поддержки аналитических решений (ИСПАР), где целью анализа является выделение сущностей и связей из текстов.

 

2. Концептуально-лингвистическое  моделирование   в   РСС-системах

 

2.1. Основные    аспекты     семантического моделирования

Концептуально-лингвистическое моделирование (КЛМ) – это процесс   построения    естественно-языковой    модели предметной   области  (ПО)  (Рис.1),  синтезирующий  в  себе подходы  концептуального  и  лингвистического  моделирования [1-3].      Построение     концептуально-лингвистической      модели некоторой   ПО,   подразделяется   на   следующие  этапы:

     -  построение  собственно  концептуальной  модели, т.е. вычленение  базовых понятий, организация  их  в   родо-видовые деревья и определение  связей между ними;

     -  разработка    идеографического    словаря   предметной области,  т.е. лексическое наполнение концептуальной модели;

     - ввод   базовых  правил,  описывающих  на  естественном языке "модель мира", релевантную для данной ПО.

        ┌──────────────────────────────┐

  ┌─────┤1. Анализ исследуемых текстов

       └──────────────────────────────┘

 

       ┌──────────────────────────────┐

  └────>┤2. Выделение основных понятий,│

  ┌─────┤   процессов и характеристик 

       └──────────────────────────────┘

 

       ┌──────────────────────────────┐

  └────>┤3. Конструирование модели ПО и

           словаря на основе базовой 

  ┌─────┤        "модели мира"        

       └────────────────┬─────────────┘

            ┌───────────┴──────────────┐

            │ Базовая "модель мира" и  │

                 модель языка        

            └──────────────────────────┘

 

       ┌─────────────────────────────────┐

  └────>┤4. Построение модели родо-видовых│

  ┌─────┤   отношений между понятиями ПО 

       └─────────────────────────────────┘

       ┌─────────────────────────────────┐

  └────>┤5. Формулирование ситуационных  

           правил в виде причинно-      

           следственных зависимостей    

        └─────────────────────────────────┘

 

Рис.1.  Процесс концептуально-лингвистического моделирования.

 

     Методика концептуально-лингвистического моделирования на основе аппарата РСС базируется на следующих принципах:

·         модель должна быть "открытой", то есть  поддерживать эффективный механизм расширения и обновления информации;

·         модель  представления  "смысла" должна учитывать факты  экстралингвистической реальности,  которые  в  виде  правил и отношений составляют некоторую базовую "модель мира",  достраиваемую  конкретными моделями предметных областей;

·         модель   должна   быть   практичной,  то  есть  не перегруженной детальными описаниями связей и отношений между понятиями, чтобы обеспечить возможность ее реализации, но  в то  же время, отражать всю релевантную для конкретной задачи информацию.

     Реалистичный подход  к  постановке  задачи  диктует необходимость   ограничения    моделируемого    подмножества естественного языка. Суть ограничений сводится к следующему:

     - во-первых,   анализируемые   текстовые   материалы содержат экспертные знания из конкретных предметных областей (диагностика  брака  при  изготовлении микросхем, социальное прогнозирование,  и др.);

     - во-вторых, в целях максимально возможного  устранения неоднозначности,  словарь  строится  по модульному принципу: есть некоторая наиболее общая часть  (1-2  уровня),  которая достраивается  специальными  словарями  для каждой отдельной предметной области.

          Предлагаемая модель лексической семантики основана на принципе "ядерного" значения,   реализуемого   в   контексте  данной  предметной области,  с последующим индуктивным наращиванием других значений (если  они  актуализируются  в  рассматриваемых контекстах). Также  используется  таксономия   которая реализуется  в  виде иерархических деревьев классов слов.

Общая  "модель мира" системы служит основой для моделей ПО. Элементами этой модели  являются классы слов,  которые подразделяются  на -  понятия / имена, -  отношения, -  действия, -  свойства, -  характеристики   действий,  - временные и пространственные характеристики.

     Самым   общим   понятием    является  концепт,    или  универсальный   класс,  который  подразделяется  на  объект, ситуацию,  процесс  и  др. 

Слова, относящиеся  к  классам  действий  и  отношений, представлены  как  семантико-синтаксические фреймы,  задающие предикатно-актантные структуры (модель управления). На Рис. 2 представлен фрагмент описания глагола в семантическом словаре.  Однако, в  описываемом  подходе (назовем его РСС-подход) существенно расширена  область  значений   актантов.   Суть   расширения состоит,  во-первых,  в  том,  что  в  роли  актантов  могут выступать  не  только   простые   объекты,   соответствующие отдельным словам,  но и структурные объекты,  представляющие словосочетания и фразы,  а во-вторых,  в  том,  что  понятие "падежа"  включает  в  себя  не  только семантические,  но и синтаксические  признаки.

{(ВЫРАБАТЫВА895__)(DICSEM)

COORD(PROGNOZ1,RUS,ВЫРАБАТЫВА895__,S50_31_51_20,%) SUB(UNIV,0+) SUB(UNIV,1+) SUB(UNIV,2+)

ВЫРАБАТЫВ(0-,1-,2-/3+) INFI(3-) ПРИДЕТСЯ(3-) ПРИДЕТСЯ(3-/4+) FUT1(4-) SUB(СРЕД,5+)

 

 Рис.  2. Пример записи представления глагола вырабатывать в семантическом словаре.

 

Подход,   основанный   на   РСС,   позволяет   отражать произвольный   уровень   вложенности   структур   за    счет пропозициональных    вершин    семантической    сети,    что обеспечивает    представление     сложных     синтаксических конструкций  фраз ЕЯ, а также позволяет отразить структурный характер  лексической  семантики,  которая  в   предлагаемой модели имеет иерархически-сетевую структуру.

 

2.2. Аппарат РСС -  основа концептуально-лингвистического моделирования

 

          Дадим    краткое    описание    аппарата    расширенных семантических сетей и дадим обоснование выбора именно  этого метода представления для моделирования естественного языка. Классическое понятие   семантической  сети  сводится  к следующему:  задаются  некоторые  вершины,   соответствующие объектам.  Вершины  связываются дугами,  на которые вешаются метки  отношений.   Однако,   с   помощью   подобных   сетей оказывается  трудно  представлять  сложные  виды информации, например,  когда объекты,  связанные  отношениями,  образуют агрегаты,   и   когда   отношения  связываются  между  собой отношениями  и  др.  Поэтому  в  сети вводятся вершины,  соответствующие именам отношений, а также специальный  композиционный  элемент,  называемый   вершиной связи.  Вершина связи как  бы «разрывает»  дугу  и подсоединяется одним ребром к вершине-отношению,  а  другими ребрами - к вершинам-объектам. РСС является развитием такого сорта  сетей   в   направлении   повышения   изобразительных возможностей при сохранении свойства однородности.

     Основой РСС является множество вершин (V),  из  которых составляются элементарные фрагменты (ЭФ) следующего вида:

   V0(V1,V2,...,Vk/Vk+1), где V0,V1,V2,...,Vk,Vk+1  V, k > 0.

     Такой  фрагмент   представляет   k-местное   отношение. Позиции  вершин в элементарных фрагментах (ЭФ) определяют их роли. Вершина V0 ставится в  соответствие  имени  отношения, вершины  V1,V2,...,Vk - объектам, участвующим в отношении, а вершина  Vk+1,  отделенная  косой   линией   (/),   -   всей совокупности  упомянутых  объектов  с учетом их отношения. В дальнейшем будем Vk+1 называть C-вершиной ЭФ. Множество ЭФ образуют  расширенную  семантическую  сеть (РСС).  С помощью РСС представляются наборы отношений, различные  ситуации,  сценарии.   Сильной стороной   РСС-подхода   является   возможность однородного  представления  как предметной (концептуальной), так   и   лингвистической   информации,   что   обеспечивает эффективную      обработку      знаний     и     поддержание непротиворечивости  базы  знаний.

    Посредством   РСС    в    базе    знаний    представлены лингвистические  (ЛЗ)  и  предметные  знания (ПЗ). Обработка этих  знаний  осуществляется  продукциями  языка  ДЕКЛ,   на котором реализованы следующие шесть блоков: морфологического  анализа (МА), семантического анализа слов (САС),  синтактико-семантического анализа форм (ССА), прагматических    функций   (ПФ), организации   системной активности (БА) и обратный лингвистический процессор (ОЛП). С помощью продукций осуществляется последовательное преобразование сети - РСС.  При  этом  проходятся  фазы,  соответствующие  уровню понимания входного текста. Рассмотрим их.

     1. На   первом   шаге   анализа  происходит  построение пространственной  структуры  предложения  с  морфологической информацией  для  каждого  слова.  Каждый  член  предложения представляется вершиной семантической сети.  Вместо слова  -  генерируется  код  (если  слово многозначно,  т.е. принадлежит к нескольким классам,  - то более одного  кода). Основой кода служит корень слова.  На этом этапе предложение представляется  в   виде   набора   фрагментов   типа   LRR, объединяемых в  целостную  структуру посредством вершины связи (Рис. 3). Результат 1-го этапа постоянно  обращается  к  словарю: "Что значит данное слово?"

O

┌───────────────┘│││└─────────────────┐

W1 │         W2┌────┘│└W3──────┐ W4      │ W5

│ │         │ │     │ │       │ │       │ │

3 4         3 4     4 3       4 3       4 3

┌─────┐     ┌─┴─┤       ┌─┴─┤     ├─┴─┐     ├─┴─┐     ├─┴─┐     ┌───┐

│BEGIN├──O─1┤LRR├─5─O─1─┤LRR├5─O─1┤LRR├5─O─1┤LRR├5─O─1┤LRR├5─O──┤END│

└─────┘     └─┬─┘       └─┬─┘     └─┬─┘     └─┬─┘     └─┬─┘     └───┘

2           2         2         2         2

                                     

O      она─>O<─ед.ч.  O<─наст.  O     он─>O<─ ед.ч.

       it    sing.    вр.         it     sing.

-ый         кто,      дейст.    -ый       что,

что       act      -ual      кого

1-st                          2-nd

position                      position

 

                 Рис. 3. Предложение представлено в   виде   набора   фрагментов   типа   LRR.

 

     2. На   втором   этапе  каждой  вершине  сопоставляется семантический класс и присваивается новый  код.  За  словами (т.е.  конкретными  вершинами  РСС)  система  видит объекты, действия,  свойства  -  то   есть,   строит  классификации. Производится  семантико-синтаксический  анализ без выявления глагольных словоформ,  при этом предложение представляется в виде совокупности  фрагментов  типа SEM и SEMD (Рис.3, 4).

 

    ┌─────┐   ┌───┐   ┌───┐   ┌────┐   ┌───┐   ┌───┐   ┌───┐

    │BEGIN├─O─┤SEM├─O─┤SEM├─O─┤SEMD├─O─┤SEM├─O─┤SEM├─O─┤END│

    └─────┘   └───┘   └───┘   └────┘   └───┘   └───┘   └───┘

 

Рис. 4. Семантико-синтаксический  анализ без выявления глагольных словоформ.

 

3. На  третьем  этапе  происходит частичное "сворачивание" синтаксических  структур  в  более   компактные   (например, свойство  объекта и сам объект) с присваиванием нового кода, и строится  фрагмент для объекта,  обладающего эти свойством.

4. На четвертом этапе выявляются  отношения  и  действия  и   производится анализ  непосредственного контекста на соответствие заданным семантическим падежам.  Система смотрит, подходят ли объекты (концепты,  понятия)  на  аргументные места данного действия или  отношения.  При этом  отглагольные  существительные ("делатель" - т.е.  агент действия, или "делание" - процесс, анализируются как слова с двойной  природой  -  вначале  как действия,  а  затем  как  объекты).  Результатом этого этапа является  целостная  семантическая  структура   предложения, которая представляется фрагментом типа SEMSTR (Рис. 4).

5. На   пятом   этапе   происходит  анализ  прагматики: установление    кореференциальных    отношений,    частичное восстановление эллиптических конструкций, система производит дальнейшие действия с построенными фрагментами.

 

      Программная                         Концептуальный

        система           ВКЛЮЧАЕТ          уровень

                                            

          O                  O                 O

        ┌─┴──┐            ┌──┴──┐            ┌─┴──┐

   <────┤ SEM├─────>O<────┤SEMD ├─────>O<────┤SEM ├──────>

        └────┘            └─────┘            └────┘

                 1     ┌────────────┐    2    

           └─────────<──┤ ВКЛЮЧАЕТ   ├───>──────┘

                        └────────────┘

                         ┌─────┴─────┐

               O<────────┤  SEMSTR   ├───────>O

                         └───────────┘

     Рис. 5. Целостная  семантическая  структура   предложения.

 

ДИЕС допускает ввод полисемичных форм глаголов. Для этого следует воспользоваться формальной записью лингвистических знаний. Например, можно ввести запись: ВЗЯЛ/- ДЕЙСТВИЕ, КОГО-ЧЕЛОВЕКА ЗА ЧТО-ПРЕСТУПЛЕНИЕ.

Тогда ДИЕС будет понимать предложения типа ИВАНА ВЗЯЛИ ЗА КРАЖУ и другие предложения такого типа. Но ДИЕС будет отличать это действие от других значений глагола ВЗЯТЬ, например, ВЗЯТЬ КНИГУ. Итак,  в  системах,  основанных  на  РСС   все   функции реализованы  на  единой  основе - в рамках языков РСС и ДЕКЛ, которые   были   разработаны   с   ориентацией   на    задачи обработки естественного языка.

 

 

 

 

3. Представление семантики глаголов, глубинные и поверхностные структуры

 

В процессе анализа выявляются семантические вершины предложения -  происходит выявление «слов-действий», т.е. глаголов и «слов-отношений».  Что же является конструктивной основой задания семантических представлений предикатных слов и выражений? Как убедительно показано в работе Ю.Д. Апресяна «Экспериментальные исследования семантики русского глагола» [4], семантика глагола определяется его дистрибутивно-трансформационными свойствами.  Поэтому смысл предикатных выражений должен кодироваться с учетом  их дистрибутивных и трансформационных признаков.

Выдвинутая рядом лингвистов гипотеза (Хомский,   Филлмор)   [5-8]   о  том,  что  все  предложения  имеют  глубинные  и поверхностные   структуры, явилась очень продуктивным источником проектных решений.  В теоретико-лингвистическом понимании глубинная   структура   -   это абстракция,  содержащая  все   элементы,   необходимые   для образования  поверхностных  структур  предложений со сходной семантикой. В инженерно-лингвистическом понимании глубинная структура – это запись на языке БЗ, например, на РСС, которая может быть представлена в «поверхностном» виде на одном из естественных языков в результате конечного числа определенных преобразований. Например, предложения

    

 (1) The dog chases the cat.   (2) The cat is chased by the dog.

    

имеют истоком одну глубинную структуру:

 

     DOG <───────────── CHASE ───────────────> CAT

            agent                 object

 

хотя и   отличаются  своими  поверхностными  структурами.  В каждом из них имеется агент (the dog),  объект (the cat),  и действие  (chase).  Согласно  концепции  "падежной грамматики" Филлмора [5],  глубинная структура  для  обоих  предложений может быть описана диаграммой в виде дерева зависимостей (Рис. 5):           

    

               S

   ┌───────────┴─────────────────────┐

  MOD                               PROP

          ┌────────────┬────────────┴────────┐

          V           OBJ                   AGENT

                ┌─────┴─────┐           ┌───┴────┐

                K           NP          K        NP

                         ┌──┴──┐              ┌──┴──┐

 PRES     chase             the    cat          the    dog

 

Рис. 6.  Глубинная структура  предложений.

 

     В исходном  виде  [5] теория признавала шесть падежей: агентив,  инструменталис,   датив,   объектив,   локатив   и фактитив.  По  мере развития теории [8] происходило увеличение числа падежей, однако «умножение»   количества   падежей   утяжеляет первоначальную    конфигурацию,   поэтому   при   построении инженерных семантических     представлений     требуется   некоторый "компромиссный"   вариант,  сочетающий  в  себе  необходимую полноту, с одной стороны, и простоту и гибкость, с другой.

     4. Многоязычные системы

 

     При создании многоязычных систем мы обращались к европейским языкам. Очевидно, что европейские языки обладают большим  количеством  общих правил,  чем любой из них с языками других групп. Но при этом все естественные языки обладают общей  структурой на самом глубинном уровне.  На этом уровне располагаются   главные   элементы   естественного    языка: Предложение, Модальность, Пропозиция.

     Моделирование  смысловых  представлений  -  это процесс развивающийся в направлении от  поверхностных  семантических структур   -   к   глубинным.   Поиск   такого   внутреннего представления  смысла  в  условиях   многоязычной   ситуации является  развитием  методов  концептуально-лингвистического моделирования на базе расширенных семантических сетей. В настоящее время ведутся работы по выравниванию параллельных текстов на основе РСС-подхода. На рисунке 7 представлен фрагмент первого этапа лингвистического анализа в многоязычных системах.

 

    e.g. A software system includes conceptual   level.

                                              

             W1       W2      W3       W4          W5

           ──O────────O───────O────────O───────────O────>

                                              

       Программная система включает концептуальный уровень.

       (Где WN обозначает словоформу с номером N, 1=<N<=5.)

 

              Рис. 7.  Первый этап анализа параллельных текстов

 

Ключевой задачей при разработке методов сопоставления параллельных текстов является выявление и детальное описание тех языковых трансформаций, которые имеют место при переводе естественно-языковых конструкций с одного языка на другой [9], потому что далеко не всегда некоторое содержание передается структурно-подобными средствами в текстах на разных языках. Сравнительное исследование употребления различных частей речи в параллельных текстах на разных языках дает основу для выявления и описания языковых трансформаций, при этом центральной трансформацией является номинализация. Явление номинализации было исследовано в ряде работ отечественных и зарубежных лингвистов [9-12]. Ближе всего к нашему пониманию этого явления следующие определения номинализации: «конструкции… называются номинализованными – в том смысле, что их естественно рассматривать как результат номинализации конструкций с предикативным употреблением глаголов и прилагательных»; «номинализация – это синтаксический процесс, который соотносит предложения с именными группами». Выявление номинализованных конструкций в параллельных научных и патентных текстах на русском, английском, французском и немецком языках в научных и патентных текстах и сопоставительное описание глагольно-именных межъязыковых трансформаций – одна из центральных задач наших исследований.

 

5. Интеллектуальные системы поддержки аналитических решений

 

Извлечение знаний (фактографической информации) из текстов и построение интеллектуальных систем поддержки аналитических решений (ИСПАР) требует проработки лексико-семантических представлений, создания развитых тезаурусов и онтологий, предметно-ориентированных семантических словарей [13-19]. Обобщенное функциональное представление систем ИСПАР дано на Рис. 8.  В рамках ИСПАР были реализованы полномасштабные и пилотные проекты для ряда предметных областей: криминалистики, управления кадрами, мониторинга финансово-экономического кризиса, и других [18-19].

 

Рисунок  8.  Обобщенное функциональное представление систем ИСПАР.

 

6. Заключение

 

Проблема извлечения и обработки знаний открывает перспективы развития интеллектуальных направлений компьютерной лингвистики, поскольку ее основной акцент смещен в сторону глубинных представлений языка, в которых используются как грамматические (морфологические и синтаксические), так и семантические атрибуты для описания языковых объектов. Проводимые нами исследования параллельных текстов направлены также на рассмотрение этой проблемы [20]. Центральное место в наших лингвистических исследованиях занимает изучение и формализация процессов трансформации языковых структур, особенно все варианты глагольно-номинативных трансформаций, создание развитых дистрибутивно-трансформационных описаний предикатых структур для рассматриваемых языков. Для систем ИСПАР дистрибутивно-трансформационные описания имеют особое значение, поскольку таким образом задаются все возможные способы перевода языковых структур в предикатно-аргументные представления, которые затем используются в процедурах обработки знаний.

 

Литература

 

1. Кузнецов И.П. Семантические представления // Москва: "Наука", 1986 г. - 290с.

2. Козеренко Е.Б. Концептуально - лингвистическое моделирование  в среде интеллектуального редактора знаний ИКС //  "Проблемы проектирования и использования баз знаний." Ин-т  кибернетики им. В.М. Глушкова, Киев, 1992, с.73-79.

3. Kozerenko E.B. Multilingual Processors: a Unified Approach to Semantic and Syntactic Knowledge Presentation // Proceedings of the International Conference on Artificial Intelligence IC-AI'2001. H.R. Arabnia (ed.), Las Vegas, Nevada, USA, June 25-28, 2001. CSREA Press, 2001, pp.1277-1282.

4. Апресян Ю.Д. Экспериментальное исследование семантики русского глагола  // Москва: Наука, 1967, 252 с.

5. Филлмор Ч.  Дело о падеже // "Новое в зарубежной лингвистике". Вып. X. М.:Прогресс, 1968, 369-495.

6. Хомский Н.  Аспекты теории синтаксиса // Москва: Изд-во МГУ, 1972.

7.  Хомский  Н.  Язык и мышление// Москва: Изд-во МГУ, 1972.

8. Fillmore C.  The case for case reopened // P. Cole & J.Sadok,  Eds.  Syntax and Semantics.  1977.  Vol. 8. New York: Academic Press.

9. Жолковский А.К., И.А. Мельчук. О семантическом синтезе // «Проблемы кибернетики», вып. 19. М, 1967.

10. Падучева Е.В. О семантике синтаксиса. Материалы к трансформационной грамматике русского языка. Изд. 2-е. // Москва: КомКнига, 2007, 296 с.

11. Jacobs R.A. and P.S. Rosenbaum. English Transformational Grammar. // Blaisdell, 1968.

12. Балли Ш. Общая лингвистика и вопросы французского языка. Изд. 2-е, // Москва: УРСС, 2001.

13. Cunningham H. Automatic Information Extraction // Encyclopedia of Language and Linguistics, 2cnd ed. Elsevier, 2005.

14. Han J. and Kamber, M. Data Mining: Concepts and Techniques // Morgan Kaufmann, 2006.

15. FASTUS: a Cascaded Finite-State Trasducerfor Extracting Information from Natural-Language Text. // AIC, SRI International. Menlo Park. California, 1996.

16. Han J., Pei Y. Yin, and Mao R. Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach,”  // Data Mining and Knowledge Discovery, 8(1), 2004, pp. 53–87.

17. Добров Б.В., Лукашевич Н.В. Онтологии для автоматической обработки текстов: Описание понятий и лексических значений // Компьютерная лингвистика и интеллектуальные технологии: Тр. междунар. конференции Диалог’06, Бекасово, 31 мая – 4 июня 2006 г., 2006, стр. 138-142.

18. Kuznetsov I.P., Efimov D.A., Kozerenko E.B. Tools for Tuning the Semantix Processor to Application Areas // Proceedings of ICAI'09, Vol. I. WORLDCOMP'09, July 13-16, 2009, Las Vegas, Nevada, USA. - CRSEA Press, USA, 2009. P. 467-472.

19. Kuznetsov I.P., Kozerenko E.B., Kuznetsov K.I., Timonina N.O. Intelligent System for Entities Extraction (ISEE) from Natural Language Texts // Proceedings of the International Workshop on Conceptual Structures for Extracting Natural Language Semantics - Sense'09, Uta Priss, Galia Angelova (Eds.), at the 17 International Conference on Conceptual Structures (ICCS'09), University Higher School of Economics, Moscow, Russia, 2009. P. 17-25.

20. Kozerenko E.B. INTERTEXT: A Multilingual Knowledge Base for Machine Translation // Proceedings of the International Conference on Machine Learning, Models, Technologies and Applications, June, 25-28, 2007, Las Vegas, USA. – Las Vegas: CSREA Press, 2007. – p. 238 - 243.