Система обработки документов на основе семантического анализа и технологии баз знаний.

 

Кузнецов И.П. (МТУСИ) igor-kuz@mtu-net.ru

Кузнецов К.И., Ефимов Д.А

                Введение

 

Исследование, получившее название "Растущая цифровая среда: прогноз всемирного роста объемов информации до 2010 года" (The Expanding Digital Universe: A Forecast of Worldwide Information Growth Through 2010) показывает, что совокупный объем цифровой информации в 2006 году составил 161 миллионов гигабайт (161 экзабайт). Предполагается, что за период с 2006 по 2010 год объем информации увеличится более чем в шесть раз.

Сегодня мы являемся свидетелями взрывного развития технологии интеллектуального анализа данных (ИАД или data mining), появление которой связано, в первую очередь, с необходимостью аналитической обработки больших объемов информации для качественного принятия решений в государственном и муниципальном управлении.

В органах государственной власти неструктурированные данные составляют свыше 80 %  всей обращаемой информации.

Большая часть таких данных имеет вид текстов естественного языка (ЕЯ). Во многих случаях персонал, занимающийся анализом информации, не в силах прочитать и осмыслить даже малую часть того, что ему вменяется в обязанности должностными  регламентами. Существующие информационные и аналитические системы оказывают существенную помощь, но для этого требуется большая предварительная работа по формализации текстов и запросов, составлению справочников и классификаторов.

В тоже время большинству пользователей – государственных служащих необходима вполне конкретная информация. Например, следователю важны фигуранты, места их жительства, телефоны, криминальные события, даты и др. Сотруднику кадрового органа интересны организации, где, кем и в какое время кандидат работал. Сотрудники информационно-аналитических подразделений  выбирают из СМИ информацию о произошедших событиях, катастрофах, террористических актах, интересующих персоналиях, и др.

Будем называть интересующую пользователя конкретную информацию  информационным объектом.

Отсюда следует необходимость создания нового класса информационных и логико-аналитических систем, учитывающих интересы конечного пользователя и ориентированных на извлечение из текстов информационных объектов.

Одним из основных классов таких систем являются системы, основанные  на использовании специальных лингвистических процессоров (ЛП) и технологии баз знаний (БЗ). Лингвистические процессоры необходимы для глубинной обработки текстов, позволяющей выявить информационные объекты и связи между информационными объектами. На основе этих связей формируются структуры знаний, которые образуют БЗ.

Такие лингвистические процессоры являются семантико-ориентированными. Их особенность - в наличии лингвистических знаний, организованных таким образом, чтобы учитывать лексические и семантические особенности ЕЯ при формировании структур знаний. Лингвистические знания включают в себя онтологии и предметные словари. С помощью лингвистических знаний осуществляется быстрая подстройка ЛП под особенности рассматриваемой предметной области: уточняются выделяемые информационные объекты и связи между ними.

Организация БЗ должна быть ориентирована на представление и обработку извлекаемых из текстов семантических компонент и структур. Для их представления последних был разработан специальный язык расширенных семантических сетей [1], а для обработки – инструментальный комплекс ДЕКЛ [4].  На уровне БЗ путем автоматического преобразования структур знаний становится возможным осуществлять сложные виды логико-аналитической обработки, связанные со сбором досье, обобщением информации, ее кластеризацией, классификацией, формулированием гипотез и др.  Таким образом, удается учитывать актуальные  потребности конкретного пользователя, а именно:

-        Во-первых, за счет использования обратных ЛП для формирования отчетов, заполнения требуемых форм или таблиц, в том числе, реляционных БД.

-        Во-вторых, за счет поддержки экспертной компоненты, обеспечивающей пополнение данных аналитическими результатами, полученными при обработке структур знаний.

-        И, в-третьих, за счет организации различных видов поиска: поиска конкретных объектов (например, лиц), поиска похожих объектов, поиска по признакам и связям, поиска связанных объектов и др. [2].

Такие виды поиска относятся к "семантическим", так как осуществляются не на уровне слов или словоформ, а на уровне структур знаний из БЗ.

За последнее время на базе исследований, проводимых в ИПИ РАН, МТУСИ и ЗАО «Синергетические Системы», были разработаны семантико-ориентированные лингвистические процессоры (СОЛП) для работы со следующими типами документов:

- документы о терроризме на русском языке;

- документы о терроризме на английском языке;

- сводки происшествий на русском языке;

- справки по правоприменительной практике на русском языке;

- правительственные сообщения на русском языке;

- автобиографии на русском языке;

- автобиографии на английском языке;

- сообщения СМИ на русском языке;

- сообщения СМИ на английском языке.

Разработка основывалась на настройке специальных лингвистических знаний, т.е. вводу и отладке правил выделения информационных объектов, основанных на «позиционных» грамматиках специального вида.

При этом удалось преодолеть многие трудности, связанные с наличием в текстах ЕЯ большого количества сокращений, неоднозначностей, умолчаний. Отдельная задача - это идентификация объектов (лиц) по всему тексту, использование для этих целей указательных местоимений, кратких имен, анафорических ссылок.

С учетом трудностей и в соответствии с задачами был разработан СОЛП нового типа, осуществляющий нормализацию слов и их группировку с формированием информационных объектов, идентификацию этих информационных объектов и установление связей между проидентифицированными информационными объектами.

 В результате по каждому документу ЕЯ автоматически строится семантическая сеть, называемая содержательным портретом документа (СПД). Последние – это структуры знаний, которые составляют БЗ и на основе которых были реализованы различные виды семантического поиска.

Кратко рассмотрим особенности работы СОЛП с различными типами документов.

1.      Сообщения СМИ.

 

Одним из весомых информационных источников в органах государственной власти являются сообщения газет, журналов, экспертные оценки, обзорные статьи и др. В этих документах содержится много конкретной информации, касающейся лиц, организаций, событий с привязкой ко времени и месту и т.д. Основные формы и методы работы с такого рода информацией - различные виды поиска, составление досье, справок, аналитических отчетов. Отметим, что объемы ежемесячной новой информации подобного типа исчисляются десятками и сотнями гигабайт, что серьезно осложняет их аналитическую обработку.

Использование известных полнотекстовых поисковых механизмов не решает проблемы, так как при полнотекстовом поиске по текстам на ЕЯ наблюдается много шумов (нерелевантных запросу документов) и/или потерь. Причиной этому являются такие особенности русского языка, как наличие словоформ, свободный порядок слов, широкое использование анафорических ссылок. Одно и тоже понятие можно выразить множеством различных способов. Слова, найденные при помощи поискового запроса, могут быть разбросаны по тексту документа и относиться к различным сущностям. Для устранения этих недостатков вводят критерии близости слов, обрезают окончания словоформ, проводят индексирование нормализованных слов и пр. Но и это кардинально не решает проблемы.

Другой вариант - это использование реляционных БД, содержащих структурированную информацию. Но для этого требуются трудоемкая работа  специально обученных людей по формализации текстов на ЕЯ: выделение из текстового документа информационных объектов: лиц, адресов, дат,... и заполнение соответствующих таблиц БД. При  наличии больших потоков документов, передаваемых в реальном времени, это сделать крайне трудно.    

Для решения задач автоматического формирования реляционных БД из потока неструктурированной информации в конце 90-х годов был разработан первый отечественный семантико-ориентированный лингвистический процессор (СОЛП).  Его задача - автоматический анализ текстов с выделением необходимого набора информационных объектов. Процессор отлаживался на 500 тыс. происшествий из сводок ГУВД  г. Москвы. По основным информационным объектам удалось добиться уникальных результатов: коэффициент шумов в компонентах (лишних слов в объектах) – не более 1-2% и потерь (отсутствие нужных слов) - не более 1% [2].  В дальнейшем возможности СОЛП были значительно расширены, что позволило работать с другими предметными областями и текстами на английском языке.

В настоящее время СОЛП обладает следующими базовыми технологиями:     

-        Гибкая настройка на любую предметную область

-        Настройка на любой язык (в настоящее время настроены русский и английский языки);

-        Предоставляются средства настройки на любые типы информационных объектов;

-        Проводится анализ глагольных форм, причастных и деепричастных оборотов;

-        Поддерживается экспертная компонента (например, для классификации события по ранее заданному каталогу – «Вид преступления», «Способ совершения преступления», результат экспертизы вносится в содержательный портрет документа).

Основные выделяемые типы информационных объектов (в настоящее время реализовано более 40 типов):

-        физические лица (по ФИО) с их особенностями;

-        должности;

-        адреса, почтовые атрибуты;

-        даты;

-        номера телефонов, факсов, е-мейлов с их стандартизацией;

-        организации;

-        средства транспорта с выделением марки машины, государственного номера, цвета и других атрибутов;

-        паспортные данные и данные других документов с их атрибутами;

-        наркотические вещества, оружие, платежные реквизиты, денежные суммы с указанием валюты и пр.;

Комплексные объекты и связи:

-        события (действия и высказывания лиц,  происшествия, катастрофы,  террористические акты, поломки оборудования и др.) с указанием участия в них информационных объектов;

-        время и место событий;

-        связи между различными типами информационных объектов (кем работает лицо в той или иной организации, по какому адресу проживает, в каких событиях принимал участие совместно с другими объектами и т.д.).    

 

Некоторые из трудностей извлечения объектов из текстов заключаются в следующем. Во-первых, для русского языка это свободный порядок слов, наличие омонимии и полисемии глаголов, разнообразие языковых форм для выражения одного и того же. Например, какое-либо событие можно выразить с помощью глагольных форм, отглагольных существительных, причастных оборотов и др. Их нужно приводить к одному виду.

Во-вторых, наличие большого количества сокращений, которые нужно расшифровывать путем анализа контекста. Например, Г. может означать ГОД, ГОРОД, ГЛАВНЫЙ. и др.

В-третьих, много умолчаний. Например, если после лица пишется его адрес, год рождения и другие данные, то их нужно связывать с данным лицом.

Еще одна задача - это идентификация объектов (лиц) по всему тексту, использование для этих целей указательных местоимений, кратких имен, анафорических ссылок. Это особенно необходимо для  обвинительных заключений, где одно и тоже лицо упоминается многократно (различными способами именования) по всему документу. Перечисленные трудности (в значительной степени) были учтены в рамках лингвистического процессора  СОЛП.

Итак, процессор СОЛП автоматически формализует документы, которые преобразуются в структуры знаний (содержательные портреты) и заполняют БЗ. На уровне БЗ (с помощью инструментального комплекса ДЕКЛ) удается достаточно быстро разрабатывать сложные аналитические программы [5] – автоматическое составление отчетов, справок, досье и др. Их высокое качество достигается за счет идентификации объектов, использования связей и фактов соотнесенности объектов к тем или иным событиям.

 

2.      Задачи кадровых служб

 

Одна из важных проблем кадровых служб органов государственной власти и местного самоуправления связана с необходимостью обработки автобиографических данных, заявок на работу (резюме), написанных в достаточно произвольной форме - в виде текстов ЕЯ. Такие тексты содержат сведения о человеке: ФИО, год рождения, адрес, время и место учебы с указанием наименования учебного заведения и др. Требуется их автоматическая формализация с выделением информационных объектов и их отображением тем или иным способом (анкета-отчет, HTML-страница, интерфейс приложения). Тогда становится возможным использование типовых средств баз данных для решения пользовательских задач. Во многих кадровых органах такая формализация делается вручную: специально подготовленными людьми, или же самим человеком, которому предлагается ввести его сведения в указанные поля по требуемой форме.

Для автоматизации этих работ был использован лингвистический процессор СОЛП, который был доработан в соответствии с особенностями предметной области. Во-первых, это необходимость выделения  другого набора объектов и связей. Во-вторых, их деление на группы. Например, деление объектов (организаций, дат и др.) на те, которые относятся к учебе или к профессиональной деятельности или к курсам. В-третьих, необходимость использования экспертных систем для пополнения данных, которые заданы в неявном виде. Будем называть такие данные экспертными объектами.                             

     ОСНОВНЫЕ ОБЪЕКТЫ:

-        лицо, составляющее заявку (как правило, в самом начале заявки);

-        дата рождения или возраст;

-        E-mail;

-        почтовый адрес;

-        домашний телефон;

-        мобильный телефон;

-        рабочий телефон;

-        личная интернет-страница;

-        желаемая должность;

    

     УЧЕБА

-        название учебного заведения;

-        факультет (специальность);

-        диплом (степень);

-        начало учебы (дата);

-        окончание учебы (дата);

     

     ПРОФЕССИОНАЛЬНЫЙ ОПЫТ

-        начало работы (дата);

-        окончание работы (дата);

-        название организации;

-        занимаемая должность;

-        обязанность, функции, достижения;

    

     КУРСЫ (обучение)

-        проводящая организация;

-        название курсов;

-        диплом (сертификат);

-        начало курсов;

-        окончание курсов.

    

     ЭКСПЕРТНЫЕ ОБЪЕКТЫ:

-        пол (определяется по имени или отчеству);

-        образование (среднее, высшее и др.);

-        профессиональная область (по заданной классификации);

-        специализация (по заданной классификации);

-        опыт работы (суммируется количество лет);

-        регион (вычисляется по адресу);

-        знание языка (по степени владения).

   

Особенности текстов и решаемые задачи потребовали, во-первых, разработки соответствующих лингвистических знаний (для выделения новых объектов и связей), и во-вторых, усиления возможностей самого ЛП. Это было вызвано следующими факторами. Во-первых, разнообразием форм ЕЯ, с помощью которых выражаются даты и временные интервалы. Например, даты могут быть в сокращенной форме (авг.05), в виде дробных чисел (09/99 г.), разного рода специальных знаков или кавычек (09.99 или 09'1999) и т.д. Интервалы: 15.05-01.12.99 или май-июнь 06 и др. Трудности вызывали их путаница с дробными числами, отсутствие ключевых слов типа г. (год) и др. Более того, одним из требований было приведение дат к стандартному виду, т.е. к расшифровке сокращений.

Во-вторых, определенные трудности вызывали задачи деления объектов на типы и правила их компоновки. Например, сравнительно часто в автобиографиях упоминаемые организации (где человек работал или учился), должности, периоды работы и основные обязанности могут быть в достаточно произвольной последовательности. Если период работы в какой-либо организации записан в конце и далее идет другая организация, то нужно уметь определять, куда отнести этот период. Периоды, даты или другие организации (например, заказчики проекта) могут стоять и внутри текста описания работы, что вызывает дополнительные трудности. Человеку по смыслу проще понять, что к чему относится. Значительно труднее выработать формальные критерии разделения и соотнесения, которые бы давали допустимое количество шумов и потерь. В связи с этим в ЛП были введены специальные средства, которые, опираясь на даты (или организации),  осуществляли поиск связанных с ними объектов.

В-третьих, многие пользователи создавали свои автобиографии или резюме на основе документов, взятых из различных таблиц, форм. Как следствие, отсутствие знаков препинания (точек), наличие спецзнаков, остающихся после перекодировки текстов. Все резюме (если не было пробельных строк) воспринималось как одно предложение.

В связи с этим в блок морфо-лексического анализа были введены специальные средства настройки - правила для выделения предложений. Например, если слово-глагол написано с большой буквы и стоит вначале строки, то это начало предложения. Таких правил множество. С их помощью учитывается роль спецзнаков, разделительных символов и др.

В-четвертых, для получения экспертных данных (объектов) в ЛП были встроены экспертные системы (ЭС), которые, например,  на основе анализа содержательных портретов соотносят документ к определенной категории (пункту классификатора), или же на основе имеющегося описания определяют степень владения иностранным языком и т.д. Если такая информация указана в исходном тексте в явном виде, то экспертной оценки не требуется.

В системе реализовано два типа оболочек для ЭС. Первая основана на весовых коэффициентах слов, соответствующих определенной категории. Вторая – на наличии слов в информационных объектах.

В ЭС первого типа с каждой категорией связываются слова с указанием их весов. Такие веса являются результатом статистического анализа эталонных документов (проанализированных человеком), т.е. предполагается этап обучения.

В ЭС второго типа с каждой категорией связываются характеризующие слова или пары слов  (словосочетания), которые берутся из фрагментов, соответствующих информационным объектам указанного типа. Одно и тоже слово или словосочетание может соотноситься лишь с одной категорией.

 И наконец, еще одна особенность - это необходимость в обратном ЛП, который нужен для преобразования объектов в компоненты ЕЯ и для их отображения на поля анкеты или сайта. Этот процессор имеет свои лингвистические знания, с помощью которых задается последовательность выдачи рубрик (полей) и какими объектами они должны заполняться. 

 

      Пример. Входной текст:

 

  Ф.И.О.   Евгения Александровна Иванова.

  Родилась  20 февраля 1977 года

  Закончила Ташкентский Финансовый институт,

  Финансово-кредитный факультет, специальность - <Финансы предприятий

  различных форм собственности>.

  Время обучения: 1995-2000г.г.

  Трудовая деятельность:

  С 1994г- начала работать бухгалтером- кассиром, материальным

  бухгалтером на машиностроительном предприятии по изготовлению

  оборудования "Техинпром" - Республика Узбекистан.

  С 1996г- переведена на должность главного бухгалтера на

  машиностроительном предприятии по изготовлению оборудования

  "Техинпром". …..

  Знание языков: 1) английский язык - разговорный

            2) корейский язык - чтение, письмо, перевод со словарем,

    Контактный телефон в Москве: раб.903-61-91(доб.141)

  Адрес электронной почты: zania_sheg@mail.ru …..

                             

       Результат обработки (на выходе):

                                                                                                                                                                                                                                                               

   Язык резюме:-> Русский

   Фамилия:-> Иванова.

   Имя:-> Евгения

   Отчество:-> Александровна

   Пол:->  Женский

   Дата рождения:-> 20 февраль 1977

   Образование:-> 1 - (Высшее)

   Желаемая должность:->

   Профессиональная область:->  5 - Банки-Инвестиции-Лизинг.

   Опыт работы:-> 2 - (3-6 лет)

   Ожидаемый уровень месячного дохода:->

   E-mail:->   zania_sheg@mail.ru

   Почтовый адрес:->

   Домашний телефон:->

   Мобильный телефон:->

   Рабочий телефон:-> 903-61-91( доб. 141)

   Телефон:->

   Личная интернет-страница:->

                                                                                                                                                                                                                                                               

   УЧЕБА:->

   Название:-> Ташкентский Финансовый институт.

   Факультет (специальность):-> Финансово кредитный факультет,

специальность - <Финансы предприятий различных форм собственности>.

   Диплом (степень):->

   Начало учебы:-> 1995

   Окончание учебы:-> 2000

 

   ПРОФЕССИОНАЛЬНЫЙ ОПЫТ:->

   Начало работы:-> 1994

   Окончание работы:->

   Название организации:-> Машиностроительном предприятии по

изготовлению оборудования "Техинпром". Республика Узбекистан.  

   Занимаемая должность:-> Бухгалтером- кассиром, материальным

бухгалтером.

   Обязанность, функции, достижения:-> …

 

   ЯЗЫКИ:-> Английский, 3 - Могу проводить интервью

   ЯЗЫКИ:->  Корейский, 2 - Читаю профессиональную литературу…

            

3. Документы о террористической деятельности

Проблема информационной поддержки борьбы с терроризмом в современном мире стоит очень остро и привлекает внимание исследователей, однако работающие системы извлечения знаний для этой области только начинают создаваться.

Основная задача - выделение из потока сообщений СМИ тех документов, которые относятся к террористической деятельности, с последующим их анализом. В связи с этим лингвистический процессор (СОЛП) был доработан в соответствии с особенностями предметной области и задач. В СОЛП были дополнительно введены следующие информационные объекты:

-        террористические группы и организации;

-        участник террористические группы с указанием его роли (лидер, главарь и др.);

-        вооруженные силы, используемые для борьбы с терроризмом;

-        интервалы времени (см. п. 2).

Были разработаны лингвистические знания для выделения этих объектов. В соответствии со спецификой текстов лингвистические знания были дополнены новыми правилами выделения объектов, например, выделение места события по формам «в 25 км. от Кабула» или «лагерь близ города Умма», и т.д. Особые трудности вызывало выделение арабских составных имен с их элементами абд (раб), Абу (отец), Ибн или Бен (сын) и др. Они не укладываются в формат европейских стандартов. Например, Абд ар-Расул, бен-Ахмад. Соответственно, усложняется структура ФИО. Для известных террористов, как правило, используются сокращенные имена или клички, например, Бен Ладен (вместо Усама Бен Ладен), Басаев (Шамиль Басаев), Хаттаб и др. В ЛП были введены специальные средства их идентификации.

Как и в предыдущих случаях, при выделении объектов учитываются возможные варианты называния объекта в тексте, в том числе, в краткой форме. Типовые объекты (ФИО, даты, адреса, виды оружия и др.) приводятся к одному (стандартному) виду. Осуществляется идентификация объектов с учетом кратких наименований (например, отдельных фамилий или имен с ФИО), анафорических ссылок (указательных и личных местоимений, например, "Этот человек", "Он ..."), определений (например, "Мэр Москвы Лужков" идентифицируется с последующими словами "мэр", "Лужков"). Для выделения событий и связей проводится анализ глагольных форм, а также причастных и деепричастных оборотов.

В тоже время основная задача использования СОЛП отличалась от предыдущих случаев - это необходимость работы (в качестве отдельного модуля) в рамках комплексных систем сбора и обработки информации. Обмен в такого рода системах осуществляется, как правило, через XML-файлы унифицированного формата. В связи с этим был разработан обратный ЛП, который на основе содержательных портретов строит XML-файлы. Такой СОЛП получил название «Semantix».

Таким образом, на вход процессора Semantix поступает  текст ЕЯ, а на выходе получается  XML-файл заданной структуры, в котором представлены все выделенные информационные объекты и связи между информационными объектами с указанием объекта и субъекта взаимодействия.

 На выходе процессора Semantix каждый объект имеет следующую структуру: 

  <OBJECT ID="7" TYPE="Organization">

    <ARG TEXT="ШТАБ" />

    <ARG TEXT="КВАРТИРА" />

    ...

    <SOURCE> Штаб квартиру оппозиционной группы</SOURCE>

  </OBJECT>      

где ID="10" - идентификационный номер объекта, а TYPE="Organization" - его тип. Также дается компонента текста, соответствующая объекту.      Отношения объектов и их участие в действиях представлены через ссылки REF=... Например, с помощью конструкции: 

  <ACTION ID="15" TYPE="УДАР">

    <ARG TEXT="НА" />

    <ARG REF="7" />

  </ACTION>

где представлено "один из ударов пришелся на штаб-квартиру оппозиционной группы". Для каждого объекта или действия дается ссылка на предложение.

В процессоре Semantix использована достаточно универсальная конструкция XML-файла: один объект (через ссылку) может включать в себя другой объект. Свойства даются как аргументы. В случае необходимости указывается тип атрибута. Например, <ATTR TEXT ="2003" TYPE="YEAR" /> - указан год и т.д.  XML-файл имеет полный набор данных, необходимых для использования в различных комплексных системах. Такие файлы могут быть использованы для заполнения БД или БЗ, для организации различных видов семантического поиска (см. п. 4), в системах мониторинга  и др.

4. Программные продукты, реализующие функции СОЛП

 

Сотрудниками ЗАО «Синергетические Системы» разработаны ряд программных продуктов, реализующих функции СОЛП.

  1. Пакет SynSys Semantix.

SynSys Semantix оформлен в виде SDK (Software Development Kit) , ядром которого является СОЛП Semantix. SDK может быть интегрирован в существующие информационные системы без существенного изменения текущей информационной среды. Online ДЕМО-версия SynSys Semantix размещена по адресу: www.semantix4you.com.

Программные модули Semantix построены с использованием технологии COM и Microsoft .NET.

Отображение идентификаторов документов в их имена, пригодные для показа пользователю (и обратное преобразование), получение содержимого этих документов, а также генерация идентификаторов новых документов выполняет клиент — т.е. внешняя по отношению к Semantix программа.

Semantix SDK позволяет разработчику производить тонкую настройку лингвистического процессора под специфику предметной области при помощи входящих в него утилит:

-        Утилиты работы со словарями.

-        Утилиты создания и настройки дополнительных семантических правил.

Ключевые инновации предлагаемого решения

-        Скорость работы более 20 кб/сек, что в несколько раз выше, чем у других разработчиков;

-        Работает более чем с 40 типами объектов без предварительного выделения из информационного потока текстов на естественном русском и/или английском языках любых интересующих пользователя объектов (например, персоналий, организаций, адресов, событий, предметов и т.п.);

-        -fвтоматического составления по результатам работы всевозможных справок, отчетов, аналитических записок, протоколов и т.п.

-        -выявление существующих взаимосвязей и взаимозависимостей между найденными или заданными объектами

-        -создание содержательного портрета документов для  проведения  их автоматического рубрицирования, классификации и категорирования;

-        -автоматического составления по результатам работы всевозможных справок, отчетов, аналитических записок, протоколов и т.п.

 

  1. Комплексная клиент-серверная система SynSys Analitix.

 

Комплексная клиент-серверная система SynSys Analitics состоит из двух основных модулей: Analitix Server и Analitix Client. Модуль Analitix Server осуществляет загрузку документов и их преобразование (с помощью Semantix) в XML-файлы. Этот модуль включает базу знаний, предназначенную для хранения документов и их семантических портретов. 

С помощью модуля Analitix Client реализованы различные виды поиска, в том числе, семантические: поиск по связям, поиск похожих событий, нечеткий поиск (когда отдельные компоненты объектов отсутствуют), поиск связанных объектов и др. Найденные объекты (или документы, где они встретились) ранжируются по степени сходства и выдаются пользователю в порядке весов. Семантические сети могут быть визуализированы с помощью модуля семантических представлений. Визуализация семантических сетей позволяет наглядно представить взаимосвязи и взаимозависимости между информационными объектами. Связь с другими системами или процессами осуществляется через XML-файлы соответствующей структуры.

Технологическая платформа решения:

-        Использование среды .NET

-        Работа в среде WINDOWS

-        Возможна перекомпиляция для работы в среде UNIX/SOLARIS

-        Работа с любыми СУБД, включая ORACLE и SQL;

 

Заключение

 

 Объектно-ориентированные лингвистические процессоры могут быть использованы в различных службах органов государственной власти,  где требуется извлечение полезной информации из текстов естественного языка и ее последующий анализ. При этом, процессоры, которые описаны в данной работе, автоматизируют многие трудоемкие процессы и по сравнению с другими подобными системами обладают рядом существенных преимуществ. Имеющиеся на рынке информационно-аналитические  системы  (RСО,  Арион, Галактика-Zoom, Онтос, Convera и др. (насколько известно авторам по общедоступной информации) устойчиво выделяют лишь объекты нескольких типов. Как правило, это такие типы, как лица, организации, даты, адреса. По имеющейся информации, при эксплуатации данных систем возникают существенные трудности при настройке на новые типы информационных объектов. К сожалению, наши попытки увидеть, как работают эти процессоры, оказались безуспешными.

 В процессорах типа Semantix выделяется до 40 типов объектов с  высокой точностью и минимальными шумами. В этом можно убедиться по ДЕМО-версии на сайте [5]. Имеются средства  быстрой настройки на новые объекты и связи – с учетом особенности предметной области. Дело в том, что учесть все, что может встретиться в текстах ЕЯ, не представляется возможным. Поэтому чрезвычайно важны, во-первых, представительный набор тестовых документов, и во-вторых,  средства отладки и настройки лингвистического процессора: наличие трассировок различного уровня, средств быстрой корректировки и подстройки лингвистических знаний. В наших системах имеется весь комплекс таких средств, которые обеспечивают быструю настройку на приложения (в том числе, ввод новых объектов и связей) с учетом требований заказчика.

 Отметим, что  в упомянутых процессорах объекты приводятся к стандартному виду (например, ФИО, адреса, даты) с указанием типов компонент.  Проводится достаточно глубокий анализ предложений с выявлением глагольных форм, а также с идентификацией объектов по всему тексту. Обеспечивается анализ сложных языковых конструкций: форм с отглагольными существительными, причастными, деепричастными оборотами, однородными членами и др. Поддерживается экспертная компонента. Процессор Semantix может быть использован как отторгаемый (независимый) модуль. Результат его работы (формализованный текст) может быть использован в различных приложениях для анализа экономической, социальной  и других ситуаций в различных регионах.

 В настоящее время разработан англоязычный вариант объектно-ориентированного лингвистического  процессора Semantix  [3].

 

Литература

Кузнецов И.П. Семантические представления // М. Наука. 1986г. 290 с.

Кузнецов И.П. Методы обработки сводок с выделением особенностей фигурантов и происшествий // Труды международного семинара Диалог-1999 по компьютерной лингвистике и ее приложениям. Том 2. Таруса 1999.

Kuznetsov, I., Kozerenko, E. The system for extracting semantic information from natural language texts // Proceeding of International Conference on Machine Learning. MLMTA-03, Las Vegas US, 23-26 June 2003, p. 75-80.

Кузнецов И.П., Мацкевич А.Г. Семантико-ориентированные системы на основе баз знаний// М. МТУСИ. 2007г. 173 с.