Главная Страница > Публикации

 Англо-русская система извлечения знаний из потоков

               информации в среде Интернет

             

               Кузнецов Игорь Петрович, Сомин Николай Владимирович (ИПИ РАН)

   

                         Аннотация

 

     Рассматриваются лингвистические и алгоритмические аспекты проблемы извлечения знаний из текстов среды Интернет. Предлагаются средства, повышающие качество работы лингвистического процессора и учитывающие особенности документов в Интернет, в том числе, наличие большого количества англо-язычных текстов. С этой целью в блок морфологического анализа введены дополнительные средства для выявления формальных и содержательных признаков английских слов. Расширены возможности предметных каталогов в плане выявления семантических категорий английских слов. Разработаны контекстные правила для синтактико-семантического анализа типовых форм английского языка. Предлагаются средства настройки блоков морфологического и синтактико-семантического анализа (через предметные каталоги) на язык входного текста.

 

    Введение

                                                  

    Современную жизнь уже невозможно представить без Интернет-среды. При поиске в ней информации в многих случаях пользователям выдается огромное количество текстов, которые приходится фильтровать – выбирать нужную информацию. В тоже же время большинство пользователей интересуются лишь конкретными вещами. Например, следователю важны фигуранты, их место жительства, телефоны и др. Специалиста по кадрам интересуют организации, где человек работал, кем и когда это было. Другие люди вылавливают из СМИ информацию о влиятельных лицах, катастрофах, террористических актах и др. Причем полезной может оказаться информация не только на русском, на и на другом языке, в большинстве случаев - английском. Будем называть интересующую пользователя конкретную информацию - информационными объектами.

     Отсюда возникает проблема выявления информационных объектов и связей из текстов естественного языка: русского и английского. Эта проблема связана с формализацией текстов и относится к области "извлечение знаний". При этом результаты должны быть представлены в требуемом виде, например, тех формах, к которым привык пользователь

или которые приняты в соответствующих службах, заинтересованных в получении информации. Другой вариант - в формах, удобных в плане последующей обработки.

     Например, важная задача многих служб безопасности - анализ потока информации (СМИ, сообщений специализированных агентств и др.) с выявлением террористических групп, их деятельности, оценка степени их активности, способов борьбы с ними. Это касается и отдельных террористов. Причем события, в которых участвуют группы или личности, должны быть привязаны к месту и времени. Для представления подобных событий и их компонент требуются достаточно сложные структуры.

     Отметим, что террористическая деятельность во многих случаях носит международный характер. Отсюда необходимость работы с англоязычными текстами. Возникает потребность в многоязычных системах, способных на основе анализа языка написания текста определять способ формализации и обработки и вызывать соответствующий лингвистический процессор (ЛП). В данной работе предлагается ЛП, который может быть настроен на язык и предметную область за счет лингвистических знаний (ЛЗ). Англоязычный ЛП отличается от русскоязычного только своими ЛЗ. Результатом работы ЛП являются структуры, которые являются основой Базы знаний (БЗ).

 

     Работа выполнялась в ИПИ РАН в рамках научного проекта ПОТОК, который является логическим продолжением проектов:

     - Система извлечения значимой информации из текстовых сообщений для задач содержательного поиска и аналитической обработки (АНАЛИТИК).

     - Система автоматического выявления из тестов значимой информации с ее компоновкой в рамках указанных шаблонов (АНАЛИТИК-1).

     - Многоуровневая система глубинного семантического анализа первоисточников для выявления информационных объектов и ситуаций, заданных пользователем (ДИСКУРС).

     В перечисленных системах для формализации текстовой информации предлагается многоуровневая система, основанная на методиках извлечения семантической информации. Особенность методик заключается в переносе сложных этапов лингвистического анализа на уровень обработки структур знаний - расширенных семантических сетей (РСС), где за счет

использования инструментальных средств ДЕКЛ реализуются сложные виды синтактико-семантического анализа и идентификации.

     Главной целью проекта ПОТОК является развитие наработанных методик лингвистической обработки в направлении совершенствования методов выявления информационных объектов и связей (в том числе, из англоязычных текстов) с учетом особенностей документов среды Интернет. Для этого потребовалось развитие блоков морфологического и синтактико-семантического анализа, а также средств их настройки на язык.

         

     1. Структура системы.

    

     Лингвистический процессор (ЛП) системы ПОТОК обеспечивает автоматическое построение по текстам естественного языка структур, называемых содержательными портретами документов, см. п.5. Процессор включает в себя блоки морфо-лексического анализа (к нему относится лексикографический, морфологический, терминологический анализ) и синтактико-семантического анализа. Рассмотрим вначале первый из них.

   

     Блок лексикографического анализа обеспечивает:

     - автоматическое деление текста на самостоятельные части (например, выделение документов из сводок);

     - определения начала и конца предложения, а также начала и конца абзаца.

     Морфологический анализ имеет целью - приведение слов в каноническую форму. Каждому слову присваиваются признаки, которые делятся на три группы:

     - лексические (слово с большой буквы, большими буквами, с точкой на конце или это отдельная буква и др.);

     - морфологические (грамматическая категория слова, число для существительных и т.д.);

     - семантические (фамилия, имя, отчество и др.).

     Количество семантических признаков может увеличиваться - за счет предметных каталогов - организаций, стран, городов и др. Само слово в нормальной форме тоже считается признаком.

     Морфологический анализ необходим, чтобы избавиться от различных форм написания слов, и облегчает поиск.

     Терминологический анализ обеспечивает выделение терминов, а также синонимичные преобразования, см. п.7.

    

     В результате строится семантическая сеть (РСС), представляющая пространственную структуру (ПС) предложений и всего текста. В этой сети представляются слова с их признаками (фрагментами типа LR), а также концы предложений (фрагментами типа SENT). В ПС сохраняется порядок слов. ДЕМО-версия ЛП, где РСС представлена в виде XML-файла, см. на сайте [9].

         

     2. Особенности интернет-текстов

 

    Любая современная система сбора информации должна быть ориентирована на работу с интернет-текстами. Поскольку тексты во всемирной сети генерируются достаточно быстро, они обладают рядом особенностей, затрудняющих их лексический, морфологический и синтактико-семантический анализ.

    Во-первых, интернет-тексты содержат огромное количество сокращений. Зачастую это связано с ограниченным объемом текстовых окон на сайтах. Не последнюю роль играет здесь платность объявлений, заставляющая их создателей вводить сокращения, причем, далеко не очевидные.

    Во-вторых, распространена неряшливая (чатовая) манера составления текста, в котором или нет разделения на предложения, или вводимые разделители носят нетрадиционный характер, так что к ним трудно априори приспособиться.

    В-третьих, лексическое наполнение интернет-текстов крайне своеобразно. Используется большое количество слов, лишь недавно позаимствованных из английского языка, отсутствующих в классических словарях русского языка. Часто текст пишется вперемешку латинским и русским алфавитами. Сплошь и рядом используются жаргон, сленг, нарочитые искажения слов.

    В-четвертых, текст составляется с большими синтаксическими погрешностями. Особенно часто авторы не употребляют должный падеж и не соблюдают согласование.

    В-пятых, текст, написанный пользователем Интернет, как правило, подвергается предварительной обработке различными программами, в результате чего происходят некорректные преобразования кодировок. Одни символы исчезают, но зато появляются другие символы, которые авторы сообщений не употребляли.

    Наконец, в-шестых, в тексте может встретиться большое количество орфографических ошибок, которые являются следствием как элементарной безграмотности авторов, так и нежеланием проверить текст перед отправкой его на сайт.

    Трудности оказываются столь разнообразными и серьезными, что возникает целая проблема Интернет-текстов, как текстов написанных на динамичном диалекте русского (и английского) языка, обладающего значительными специфическими особенностями. Решение проблемы интернет-текстов требует от создателей языковых анализаторов разработки новых подходов. Один из таких подходов представлен в последующих разделах.

 

     3. Особенности блока английской морфологии

    

     Некоторые из перечисленных особенностей были учтены при создании лингвистического процессора для текстов русского языка [3]. Например, был разработан блок морфологического анализа, основанный на обобщенных окончаниях и обрабатывающий новые слова - которые ранее не были введены в данный блок. Однако, этот блок не способен определять морфологические характеристики английских слов. Поэтому возникла необходимость разработки блока английской морфологии. В идеале, он должен быть совместим с существующим в системе блоком русской морфологии.

     Такой блок был создан. Он использует уже разработанное для русской морфологии программное обеспечение, которое оказалось, возможным адаптировать к специфике английского языка. Блоки английской и русской морфологии выдают одни и те же морфологические характеристики. Это позволяет использовать для синтаксико-семантического анализа англоязычных текстов те же средства, что и для русского языка. В результате лингвистические знания для этих языков стало возможным записывать в одном и том же формализме [6,7].

     Общий объем словаря основ блока английской морфологии - около 85 тыс. Тем не менее, для повышения качества работы этого блока в него был введен ряд специфических для английского языка алгоритмов, которые в основном касаются отсева лишних вариантов морфологического анализа. Дело в том, что слова английского языка чрезвычайно омонимичны. Очень часто одно и то же слово может быть и существительным, и глаголом, и

прилагательным. В блоке английской морфологии реализованы алгоритмы, позволяющие в ряде случаев корректно отбрасывать лишние варианты (другие варианты отсеиваются в процессе синтактико-семантического анализа). Блок был модифицирован для работы с предметными каталогами английского языка, которые удалось совместить с каталогами русского языка, см. п.8.

                                                         

     4. Представление знаний.

         

     Структуры знаний системы ПОТОК, отображающие англоязычную информацию, представляются таким же образом, как и для русского языка. На уровне таких структур система как бы абстрагируется от языка. Структуры знаний записываются в нотации семантических сетей, дополненных средствами представления событийных компонент и комплексных связей. В результате образуются расширенные семантические сети (РСС). РСС состоит из элементарных фрагментов, имеющих произвольное количество аргументных мест (но не более 200) и представляющих свойства, отношения, события, действия. Множество фрагментов - это РСС [1,2].

     РСС ориентированы на отображение возможности интеграции множества связанных объектов в один объект, что выражается в англоязычных текстах в виде форм с причастиями (participle) и герундиями (с окончанием ING), а также отглагольными существительными (с окончаниями TION и др.). Понятие связи рассматривается в широком смысле. Это могут быть не только отношения, но и зависимости. Связанными считаются также объекты, участвующие в одном действии. Группа связанных объектов может быть связана с другой группой, что в англоязычных текстах выражается в виде глагольных форм с актантами - причастиями, герундиями, отглагольными существительными.

    

     5. Содержательные портреты документов.

            

     Сеть (РСС), представляющая объекты и связи какого-либо документа, образует, так называемый, содержательный портрет этого документа. Такие портреты необходимы для обеспечения быстрого и качественного поиска информации по значимым компонентам и связям [7]. Приведем в качестве примера типичный текст СМИ, написанный на английском языке и касающийся террористической деятельности лиц.

 

     Пример 1.

 

  12:16 27.12.2002 One of leaders of insurgents - Arabian Abu-Tarik is

  destroyed in the Chechen Republic.

       In the Chechen Republic one of leaders of Islam terroristic

  group the mercenary Abu-Tarik - assistant of Abu al-Valod, successor

  of Hattab, is destroyed. As have informed the Ministry of Foreign

  Affairs of the Chechen Republic, joint forces of Chechen special

  militia and divisions of federal forces destroy the insurgent in

  settlement Starye Atagi of Groznensky region during the addressed

  check up.

       In one of the houses there were found the hiding place with the

  confidential Arabian documents, three sub-machine guns and

  pomegranates, ammunition. There are no any losses among participants

  of the operation.

 

     В данном примере имеются все знаки препинания, что облегчает его анализ. В тоже время, следует отметить ряд особенностей (они есть и для русского языка). Во-первых, определенные трудности вызывает выделение арабских составных имен с их элементами abd (раб), Abu (отец), Ibn или Ben (сын) и др. Они не укладываются в формат европейских стандартов. Например, Abu al-Valod или Abd ar-Rasul ben-Ahmad. Соответственно, усложняется ФИО.

     Во-вторых, для известных террористов, как правило, используются сокращенные имена, например Ben Laden (вместо Usama Ben Laden), Hattab (вместо Hasan Hattab) или Basaev (вместо Shamil Basaev) и др. В ЛП были введены специальные средства их идентификации.

     В-третьих, в ангоязычных текстах много слов записываются с большой буквы. Например, это слова, входящие в название областей, регионов, организаций и др. Поэтому требуются более тонкие средства для выделения объектов. Например, в словосочетании Arabian Abu-Tarik требуется отделение Arabian (араб) от лица - Abu-Tarik.

     В-четвертых, в английском языке даты могут записываться в другом стандарте, например, July 14,1995.

     Другие трудности возникают при выделении словосочетаний, при поиске глаголов настоящего времени (большинство существительных могут играть роль глаголов) и т.д.

                           

     В результате модернизации блоков лексического, морфологического и синтактико-семантического анализа русского языка был создан англоязычный лингвистический процессор, учитывающий особенности текстов английского языка, в том числе текстов, приходящих на вход системы из среды Интернет. В результате работы процессора текст  примера 1 преобразуется в содержательный портрет следующего вида:

 

     Пример 2.

                                                                                                                                                                                                                                                               

   ДОК_(11,ENG_TERR.TXT,"Terr_eng;"/0+)  0-(ENG)

   ДАТА_(2002,DEC.,27,12,HOUR,16,MINUTE/1+)

   ОПГ_(1,LEADER,OF,INSURGENT/2+)

   FIO("ABU - TARIK"," "," "," "/3+)

   DESTROY(ARABIAN,3-/4+) 4-(11,ACT_)

   PLACE_(CHECHEN,REPUBLIC/5+)

   Where(4-,5-)

   ОПГ_(1,LEADER,OF,ISLAM,TERRORISTIC,GROUP/6+)

   FIO(ABU,AL-VALOD," "," "/7+)

   FIO(HATTAB,HASAN," "," "/8+)

   SUCCESSOR(7-,8-/9+)

   ASSISTANT(3-,7-/10+)

   ОРГ_(MINISTRY,OF,FOREIGN,AFFAIR,OF,CHECHEN,REPUBLIC/11+)

   INFORM(11-/12+) 12-(11,ACT_)

   ОРГ_(CHECHEN,SPECIAL,MILITIA/13+)

   ВС_(JOINT,FORCE,OF,13-/14+)

   ВС_(DIVISION,OF,FEDERAL,FORCES/15+)

   DESTROY(14-,15-/16+) 16-(11,ACT_)

   "CHECK UP"(ADDRESS/17+) 17-(11,ACT_)

   PLACE_(SETTLEMENT,STARYE,ATAGI,OF,GROZNENSKY,REGION/18+)

   Where(17-,18-)

   FIND(1,HOUSE,HIDE,PLACE,CONFIDENTIAL,ARABIAN,DOCUMENT/19+) 19-(11,ACT_)

   ОРУЖ_("SUB ",MACHINE,GUN/20+)

   ОРУЖ_(POMEGRANATE/21+)

   РАБ_(PARTICIPANT,OF,OPERATION/22+)

   "BE NO"(LOSS,22-/23+) 23-(11,ACT_)

                                                                                                                                                                                                                                                               

   ПРЕДЛ_(11,1-,2-,4-/24+)  24-(1,3,111)

   ПРЕДЛ_(11,5-,6-,MERCENARY,3-,10-,7-,9-,8-,DESTROY/25+)  25-(4,111,267)

   ПРЕДЛ_(11,12-,16-,17-/26+)  26-(6,268,520)

   ПРЕДЛ_(11,19-,3,20-,AND,21-,AMMUNITION/27+)  27-(10,521,671)

   ПРЕДЛ_(11,23-/28+)  28-(12,672,731)

                                                                                                                                                                                                                                                               

      Первый фрагмент ДОК_(11,ENG_TERR.TXT,"Terr_eng;"/0+) указывает, что содержательный портрет построен на основе 11-го документа, взятого из файла 'ENG_TERR.TXT'. При этом использованы лингвистические знания, которые определяются ключем "Terr_eng;" (анализ террористической деятельности). Фрагмент 0-(ENG) представляет, что документ на английском языке.

      Следующие фрагменты представляют:

  

   ДАТА_(2002,DEC.,27,12,HOUR,16,MINUTE/1+) - дату,

   ОПГ_(1,LEADER,OF,INSURGENT/2+) - преступную группу,

   FIO("ABU - TARIK"," "," "," "/3+) - лицо,

   DESTROY(ARABIAN,3-/4+) 4-(11,ACT_) - действие, ...

    

     Каждый объект имеет свой код, который используется при наличии  ссылок на данный объект. Например, 3+ - код лица Abu-Tarik, который участвует в событии DESTROY (ссылка в виде 3-). Специальными метками типа 4-(11,ACT_) отмечаются события или действия, чтобы отделить их от объектов. Это удобно, но не обязательно, так как объекты имеют свои

уникальные имена. Например, для лица - это FIO, для даты - ДАТА_ и т.д.

     Фрагменты SUCCESSOR(7-,8-/9+) и ASSISTANT(3-,7-/10+) представляют отношения между лицами с кодами 7+ (Abu al-Valod), 8+ (Hattab) и 3+ (Abu-Tarik). Фрагмент Where(17-,18-) связывает действие DESTROY с местом - PLACE_.

     Для представления имен объектов других типов были использованы сокращения:

                                                                                                                                                                                                                                                               

   ОРГ_(...) - организация;

   ВС_(...) - вооруженные силы;

   ОРУЖ_(...) - оружие, боеприпасы.

    

     В системе Криминал таких объектов выделяется до 40 типов [4].

     На данном примере видно, что средствами лингвистического процессора (блока морфологического анализа) удалось достаточно корректно поделить текст на предложения - ПРЕДЛ_. Для каждого предложения (дополнительно) введены средства его позиционирования.

     Например, фрагменты: ПРЕДЛ_(11,1-,2-,4-/24+) 24-(1,3,111) представляют первое предложение, состоящее из даты (код 1+ и ссылка 1-), преступной группы (код 2+ и ссылка 2-) и ФИО лица (код 1+ и ссылка 1-) Предложение расположено на первой строке, начиная от 3-го и до 111-го байт. На основе таких фрагментов можно определить месторасположение любого информационного объекта в тексте, и соответственно, выдать этот объект как набор слов, взятых из текста. Такая методика является основой обратного лингвистического процессора.

 

     Содержательные портреты (РСС) представляют достаточно высокий уровень формализации текстов и удобны для обработки - с помощью инструментальных средств ДЕКЛ [2].

    

     6. Настроечные фрагменты блока лексического анализа

    

     В примере 1 представлен достаточно грамотный текст. Рассмотрим другой текст, взятый из Интернет и касающийся автобиографических данных.

    

     Пример 3.

    

  IVANOVA NATALIA

  Tel. 9367 9120(w)  248 3667(h)

  mob. 8 916 1266013

  Moscow, Savvinskaya Nab., 13-24

  12/12/1975

  Objective: To obtain a position of Personal Assistant, Paralegal

  Assistant

  Other Languages:

  ·         Good English

                                                                                                                                                                                                                                                               

  Experience

  2002 (December)-present OOO "R.L.G." /Richemont Luxury Group Moscow,

  Russia

  Personal Assistant to Finance Director

  Duty:

   Travel arrangements

   Administration duties

   Organization of client meetings

  2000 (March)-2002 (December) PricewaterhouseCoopers           Moscow, Russia

  Partner's Assistant....

    

     Такие тексты характеризуются отсутствием точек в конце предложений, наличием большого количества спецзнаков (         ,?,...) слов с большой буквы, точек и тире для сокращений (Tel., mob.,..) и т.д. Все это в значительной степени затрудняет деление текста на предложения (лексический анализ), выделение информационных объектов и их связей. Отсюда необходимость развития лингвистических средств.

     Обычно, блок морфо-лексического анализа осуществляет разделение на предложения по правилам русского языка. Для обработки текстов, в которых эти правила не соблюдаются (отсутствуют точки и др.) приходится вводить средства выявления предложений по более тонким признакам.

     Для работы с реальными текстами (русскими и английскими), для выделения в них лексических единиц и предложений в блок морфо-лексического анализа были введены специальные средства внешней настройки. Для настройки этого блока разработан специальный язык, синтаксически представляющий собой набор ДЕКЛ-фрагментов. Этот набор обеспечивает гибкое управление лексическим анализом. Разбор и выполнение настроек осуществляется специальными модулями, входящими в состав блока морфо-лексического анализа. В указанный язык входят следующие фрагменты.

     Фрагменты, определяющие начало или конец предложения:

  

   NEW_SENT(<слово1>,<слово2>,...,<словоN>)

 

Семантика: Если указанное во фрагменте слово записано с прописной буквы и находится в начале строки текста, то оно рассматривается как начало нового предложения. Возможен вариант записи слово1, слово 2 и т.д., заканчивающееся символом '*', который символизирует любое (в т.ч. и пустое) окончание слова, например, CONTROL*,COOPERAT*.

     Возможен также вариант записи, начинающийся с символа '*', за которым следует морфологический признак части речи, например *V,*T. В данном случае это означает, что любой глагол (V) или причастие (T) начинающиеся с прописной буквы и стоящие в начале строки, рассматриваются как начало предложения.

     Например, NEW_SENT(ANALYSIS,ASSUR*) - если слово Analisis или Assur<могут быть еще буквы> с большой буквы и стоит вначале строки, то это начало предложения.

     С помощью фрагментов типа NEW_SENT обеспечивается правильное разделение текста на предложения в случае отсутствия знаков препинания. Отметим, что правильное деление предложений очень важно для синтактико-семантического анализа.

     Фрагмент конца предложения:

   

   END_SENT(<слово1>,<слово2>,...,<словоN>)

 

Семантика и прагматика: Если в тексте встречается одно из указанных слов (символов, знаков), то оно считается концом предложения. Например, END_SENT(';') - точка с запятой будет концом предложения.

     Фрагмент, модифицирующий NEW_SENT:

  

   WORD_NEW_S(<слово1>,<слово2>,...,<словоN>)

 

Семантика: Если перед словом, которое удовлетворяет критериям фрагмента NEW_SENT стоит символ или слово (из одной буквы), указанное в данном фрагменте, то этот символ рассматривается как начало предложения, причем этот символ из предложения удаляется.

     Часто встречаются тексты, взятые из типовых редакторов, например, Word. Причем перекачка осуществляется некорректно, в результате чего остаются служебные символы, загрязняющие текст и мешающие правильно распознать начало предложения. Для обработки подобных символов и предназначен данный фрагмент.

     Комплексный фрагмент:

                                             

   B_SENT(<слово1>,[NEW_SENT],[NAME0,HEAD_,NAME_HEAD],<имя-фрагмента>)

 

Семантика: определяется начало предложения, когда в начале строки стоит слово или символ <слово1>. Имеет несколько модификаций.

  

   B_SENT('',,,)

  

Символ '' (вначале строки) определяет начало предложения.

 

   B_SENT('?',,NAME0,)

 

Символ '?' (вначале строки) определяет начало предложения, если за ним слово с большой буквы (NAME0). Другие варианты: HEAD_ - слово большими буквами, NAME_HEAD - или то или другое.

           

   B_SENT('-',NEW_SENT,,)

 

Символ '-' (вначале строки) определяет начало предложения, если за ним стоит слово из списка NEW_SENT(...).

 

   B_SENT(<>,<>,<>,E_LINE)

 

К фрагменту конца предложения SENT(.../2+) в ПС добавляется фрагмент 2-(E_LINE), указывающий на наличие пробельной строки. B_SENT(...) - это универсальный фрагмент, позволяющий во многих гибко

определять начало предложения.

 

     Фрагменты, служащие для выделения лексических единиц:

                                             

   ABBR_(<слово1>,<слово2>,<слово3>,...,<словоN>)

 

Семантика: все слова должны содержать символ '-'(минус); тогда данное слово рассматривается как целое ('-' не служит разделителем между словами).

     Например, фрагмент ABBR_(ГР-НР-НЕ,ГР-НА,ГР-КА) позволяет системе воспринимать сокращения ГР-Н,ГР-НЕ,ГР-НА,ГР-КА как отдельные слова.

 

   ABBR(<слово1>,<слово2>,<слово3>,...,<словоN>)

 

Семантика: Сокращения с точками на конце считаются цельными словами и не рассматриваются как конец предложения.

Например, ABBR(Tel.,mob.,Inc.,Ltd.,Corp.,Comp.,Co.,Mr.,Ms.,Mrs.,Dr.).

 

   SIGN_MANY(<слово1>)

 

Семантика: если встречается слово, состоящее более чем из 3-х одинаковых символов (знаков или букв - <слово1>), то оно не разделяются и рассматриваются как одно слово. Служит для представления различного рода разделительных линий в тексте. Например, при

SIGN_MANY('-') линия "------" в ПС рассматривается как одно слово.

                                             

     6. Настроечные фрагменты для преобразования слов

 

     Блок морфо-лексического анализа осуществляет различные преобразования слов, облегчающие последующий синтактико-семантический анализ. Для этого используются настроечные фрагменты, которые обеспечивает гибкое управление морфологическим анализом – добавлением признаков к словам, а также их преобразованиями. Рассмотрим некоторые из этих фрагментов:

  

   WORD_DEL(<слово1>,<слово2>,...,<словоN>)

 

Семантика: Если символ или слово (которое должно быть однобуквенным) встречается в тексте, то оно удаляется из него. Применяется для удаления служебных символов.

 

   MORF(<символ1>,<признак1>)

 

Семантика: если среди распознанных признаков слова есть символ1, то для данного варианта разбора в ПС генерируется фрагмент 2-(признак1). С помощью этого фрагмента наиболее важные морфологические признаки переводятся в отдельные ДЕКЛ-фрагменты, необходимые для синтактико-семантического анализа.

 

   WORD_BAD(<слово1>,<cлово2>)

 

Семантика: если в тексте встречается слово1, то оно заменяется на слово2. Если слово2=' ' (пробел), то слово1 не обрабатывается.

Фрагмент служит для корректировки или удаления в тексте спецзнаков и слов, которые могут нарушить работу ДЕКЛ-процессора.

        

  SYNON(<слово1>,<слово2>,...,<словоN>)

 

Семантика: Если в тексте встречается одно из слов: слово2, слово3, ..., словоN, то в ПС оно заменяется на слово1. Таким образом, слово1 является стандартной формой понятия, к которому приводятся все остальные написания этого понятия. Фрагмент полезен для унификации результатов разбора.

Например, с помощью SYNON(MOBILE,MOBIL,MOB.,MOB,CELL) осуществляются преобразования: Mobil -> Mobile, Mob. -> Mobile и т.д..

 

  TERMIN_(<слово1>,<слово2>,...,<словоN>)

 

Семантика: если в тексте имеет место последовательность слов: слово2, слово3, ..., словоN, то в ПС эта последовательность заменяется на слово1. Фрагмент заменяет некий термин, состоящий из нескольких слов, к стандартному однословному написанию этого термина. Фрагмент полезен для унификации результатов разбора.

Например, TERMIN_(SUCH,SUCH,AS) - задает преобразование: such as -> such.

                                        

     7. Англоязычные каталоги ключевых слов и словосочетаний

 

     Каталоги в системе ПОТОК даются в виде списков и обрабатываются блоком морфологического анализа, который приписывает словам соответствующие признаки. Например, рассмотрим каталог имен (он находится в файле Name_k.slv):

     

      Abram

      Ahmet

      Alan

      Alla

      ...

                                                                                                                                                                                                                                                               

      Bernard

      Bertrand

      Bogdan

      Boris

      Bruce

      Claudia

      Cristian

      Christopher

      Curdin

      ...

   

     Если в тексте встретилось слово "Abram", то ему присваивается признак Name_k, т.е. в пространственной структуре (ПС) текста формируется LR(,ABRAM,.../2+) NAME_K(2-). Такие признаки являются основой для выделения ФИО (лиц) из текстов естественного языка. Эти признаки учитываются на уровне синтактико-семантического анализа, где выявляется контекст, который и определяет существование того или иного информационного объекта, и соответственно, его выделение. Например, просто слово "Abram" может быть не только частью ФИО, но также городом, частью организации и др.

     Итак, каталоги дают ключевые слова, за которые система "цепляется" и пробует найти тот или иной информационный объект. В системе ПОТОК имеются каталоги ключевых слов для объектов различных типов: организаций, должностей, транспортных средств и др. Отметим,

что в каталоги можно вводить целиком информационные объекты. Но это плохой вариант, так как таких объектов может быть слишком много. Обычно вводятся лишь уникальные объекты, выходящие за рамки типовых конструкций.

     Для английского языка используются каталоги ключевых слов русского языка. Например, в каталоге имен существуют как русские, так и английские имена. Они не мешают друг другу, так как записаны в различных алфавитах.

     Каталоги ключевых слов являются важным звеном в процессе настройки на язык и его информационные объекты.

 

     8. Контекстные правила

    

     Блок синтактико-семантического анализа выполняет следующие функции:

   

    - по признакам и контексту выделяет информационные или значимые объекты (ФИО людей, адреса, организации, номера машин и др.);

    - для каждого выявленного значимого объекта находит в документе связанную информацию (для лиц это их год рождения, пол, адрес и др.).

     Для этого используются "контекстные" правила [5,6,7].

    

     Многие информационные объекты (адреса, номера машин, организации и др.) - это наборы слов, которые грамматически никак не согласованы. Их выделение может осуществляться по чисто формальным принципам. Например, адрес может рассматриваться как набор буквосочетаний 'P.O.', BOX, ST..., слов с большой буквы и чисел. Каждый такой набор может иметь свои границы и недопустимые компоненты. Например, в адресах не может быть ФИО, глаголов и т.д. Выделение таких наборов слов (описаний объектов) основано на использовании контекстных правил следующего вида:

   

   CONTEXT(<слово1>,<слово2>,...,<словоN>) -> <результ. фрагмент>

 

где <слово1>,... это может быть - отдельное слово, признак, а также И-ИЛИ графы. Для этих правил указывается, с какой позиции начинать применение, а также допустимый или недопустимый контекст. Далее, может быть указано, слово с какими признаками не должно стоять на той или другой позиции. Это обеспечивает дифференцированное применение правил.

    Такие правила выделяют из текста группы слов (по их признакам), описывающих какой-либо объект, и заменяют их на одно слово, с которым связывается соответствующий фрагмент семантической сети, например, представляющий адрес.

                    

     Cинтактико-семантический анализ предложений с выделением словосочетаний и анализом форм осуществляется на основе контекстных правил, которые применяются в определенной последовательности. Вначале выделяются объекты, затем их признаки, словосочетания, и наконец, глагольные формы. По мере применения таких правил строится

семантическая сеть – содержательный портрет документа.

     Применение каждого правила - это последовательность действий, основанных на анализе слов и их признаков [7].

     Такие правила создавались для русского языка. При этом, сам формализм (особый вид грамматик) оказался достаточно универсальным, что сделало возможным его использование для английского языка.

    

     В тоже время, для поддержки английского языка пришлось преодолеть определенные трудности в связи с наличием особенностей англоязычных текстов. Вот некоторые из них:

     - Другие принципы организации словосочетаний. Определяющие слова могут стоять перед главным словом без всяких согласований. Это одна из причин неоднозначностей при выделении информационных объектов.

     - Большое количество слов пишется с большой буквы.

     - Многие обороты (причастные и др.) не выделяются запятыми и др.

    

     Несмотря на трудности удалось разработать систему контекстных правил, которые обеспечивают достаточно полный разбор предложений английского языка. Параллельно обеспечивается выделение основных информационных объектов:

     - лица (по ФИО) с их особенностями (потерпевший, террорист и др.);

     - адреса, почтовые атрибуты;

     - организации (с делением на места учебы и работы);

     - должности;

     - специальность (по образованию);

     - номера телефонов, факсов, е-майлов с их стандартизацией;

     - количественные характеристики (сколько лиц или других объектов принимали участие в том или ином событии);

     - события (криминальные, террористические, поломки изделий и др.) с указанием участия в них информационных объектов;

     - время и место событий;

     - связи между различными типами информационных объектов;

     - другие объекты (определяемые спецификой задач пользователя).

    

     Заключение

 

     Для сбора информации в Интернет-среде требуется система, состоящая из двух основных компонент. Первая - система сбора информационных ресурсов по ключевым словам. С помощью типовых средств система находит соответствующие WEB-страницы и выделяет из них текстовый материал с достаточно высокой плотностью ключевых слов. Вторая компонента - интеллектуальная система анализа собранной информации, извлечения интересующих пользователя объектов и их представление в требуемом виде (или сохранение в БД или БЗ). В данной работе рассмотрена вторая компонента, связанная с лингвистической обработкой англоязычных и русскоязычных текстов. Здесь имеется много нерешенных проблем.

     Рассматриваются методы их решения, основанные на использовании расширенных семантических сетей и лингвистических процессоров, управляемых структурами знаний.

     Практическая реализация предлагаемых методов осуществлена совместно с компанией SYNSYS. ДЕМО-версия англоязычного лингвистического процессора представлена на сайте

http://www.semantix4you.com. На основе таких процессоров появляется возможность построения перспективных систем дифференцированного сбора информации в сети Интернет и ее использования для постоянного информирования пользователя в его предметной области.

 

 

   Литература

                                                             

   1. Кузнецов И.П. Семантические представления. М. Наука. 1986 г., 290 с.

   2. Кузнецов И.П. Пузанов В.В., Шарнин М.М. Система обработки декларативных структур знаний ДЕКЛАР-2. Москва, ИПИАН, 1988 г.

   3. Сомин Н.В., Соловьева Н.С.., Шарнин М.М. Система морфологического анализа: опыт эксплуатации и модификации. Системы и средства информатики, Вып. 15, 2005, стр. 20-30.

   4. Кузнецов И.П. Методы обработки сводок с выделением особенностей фигурантов и происшествий. Труды международного семинара Диалог-1999 по компьютерной лингвистике и ее приложениям. Том 2. Тарусса 1999.

   5. Кузнецов И.П., Мацкевич А.Г. Система извлечения семантической информации из текстов естественного языка. Труды межд. Семинара "Диалог 2001". Т.2. Москва, Наука 2002.

   6. Kuznetsov Igor, Matskevich Andrey. System for Extracting Semantic Information from Natural Language Text. Труды международного семинара Диалог-2002 по компьютерной лингвистике и ее приложениям. Том 2. Протвино, Наука, 2002.

   7. Кузнецов И.П., Особенности обработки текстов естественного языка на основе технологии баз знаний. Сб. ИПИ РАН, Вып.13, 2003 г. стр. 241-250.

   8. Кузнецов И.П. Семантико-ориентированная система обработки неформализованной информации с выдачей результатов на естественном языке. Сб. ИПИ РАН, Вып. 16, 2006, стр. 235-253.