Главная Страница > Проекты

                                                         

                                                    

           Многоуровневая система глубинного семантического анализа

           первоисточников для выявления информационных объектов и

           ситуаций, заданных пользователем

                                             Шифр «АНАЛИТИК-2»

                      

                             Руководитель проекта: д.т.н., проф. Кузнецов Игорь Петрович                                                            

                    

     1. ВВЕДЕНИЕ

 

     За последнее время наблюдается лавинообразный рост объемов документов, получаемых организациями. Во многих областях имеют место потоки текстовой информации: сводки происшествий, СМИ, сообщения о новом оборудовании, деффектах, катастрофах, организациях, ценах и др. Их обработка осуществляется с ориентацией на задачи пользователя. Одной из важнейших задач является поиск в этом потоке интересующих пользователя "информационных" объектов. Это могут быть лица, организации, те или иные виды оборудования, их особенности (деффекты), события определенного типа (криминальные действия, сбои оборудования, изменение цен на товары,...), их место, время и др. Каждая область приложений характеризуется своими объектами. Во многих случаях требуется выявление связей объектов. Например, как интересующие его лица связаны с организациями, кто принимал участие в событиях, когда они имели место (точные даты) и др. На этой основе составляются отчеты, протоколы, или же задания на другие виды поиска.

    Обычные способы обработки текстовой информации предполагают участие человека. Кто-то должен переваривать потоки текстов с выделением информационных объектов. Например, читать все тексты,

извлекать необходимую информацию (лица, их адреса и т.д.) и создавать Базу Данных. Или же искать нужные фрагменты текста для составления отчетов, протоколов. Для человека это трудоемкие процедуры. И если потоки большие - то переварить их невозможно. Поэтому требуется развитие методов и средств автоматизации этого вида деятельности: процесса выявления из текстов информационных объектов и связей с их использованием для задач пользователя.

     Данный проект имеет целью - развитие методик на основе новейших технологий логико-лингвистической обработки и баз знаний. Особенность методик - в использовании наукоемких технологий и переносе сложных этапов лингвистического анализа на уровень обработки знаний. Для нормализации слов разработан уникальный блок морфологического анализа, использующий обобщенные окончания для распознавания незнакомых слов и допускающий настройку на язык за счет предметных каталогов. Имеются в виду электронные каталоги специальных знаний, представляющих перечни стран, регионов России, марки оружия, виды наркотических препаратов, улицы городов, национальности и др. Далее, разработаны

семантико-ориентированные грамматики. С их помощью обеспечивается выделение информационных объектов. Проект базируется на концептуально-лингвистической модели и методиках обработки знаний,

развиваемых на протяжении последних десяти лет в ИПИРАН. Уровень полученных результатов сопоставим с передовыми научными исследованиями за рубежом.

    

     2. ОСНОВАНИЕ ДЛЯ ВЫПОЛНЕНИЯ РАБОТ

 

     2.1. Основанием для выполнения работ являются их высокая научная и прикладная значимость.

     2.2. Работа является логическим продолжением проектов:

     - Система извлечения значимой информации из текстовых сообщений для задач содержательного поиска и аналитической обработки (шифр АНАЛИТИК).

     - Система автоматического выявления из тестов значимой информации с ее компоновкой в рамках указанных шаблонов (Шифр АНАЛИТИК-1).

     Данный проект (АНАЛИТИК-2 ) предполагает развитие наработанных методик в направлении поиска и анализа значимой информации в различных источниках, в том числе, средствах массовой информации (из Интернет).    

     2.3. Выполненные разработки:

     Этап 1. Разработка ТЗ. Обеспечение работы с предметными каталогами большого объема и словарями (с 1 по 2 кв. 2004 г.).

     Этап 2. Методы и средства автоматического выделения из первоисточников информационно значимых элементов дискурса с их глубинным анализом. (с 3 по 4 кв. 2004 г.).

     Этап 3. Методы и средства автоматического выявления событий и ситуаций, интересующих пользователя (с 1 по 2 кв. 2005 г.).

     Этап 4. Методы направленного поиска материалов по заданию пользователя для последующего глубинного анализа и представления результатов в виде составления отчетов (с 3 по 4 кв. 2005 г.).

                    

     2.4. Результаты: ПО и итоговый отчет. По окончании работ предполагается построение опытного образца, который предполагается использовать как основа для внедрения в различных структурах МВД РФ, ГУВД г. Москвы и других силовых комитетах и ведомствах.

    

     3. СУЩЕСТВУЮЩИЕ ПОДХОДЫ.

               

     Задача исходит из текущей потребности этих ведомств в автоматизации проблем сбора и анализа больших объемов неструктурированной информации. На протяжении многих лет ведутся серьезные исследования по комбинированным семантико-синтаксическим системам.

     Во многих работах русских исследователей указывается на необходимость учитывать не только чисто лингвистические реалии (как это имеет место в большинстве реализованных моделей), но и предметную

область, семантику. Здесь пионерской является модель СМЫСЛ-ТЕКСТ (Мельчук А.И.), где понимание ЕЯ-текста рассматривается как воссоздание модели реальной ситуации. В русле развития семантического

подхода весьма продуктивными представляются работы Попова Э.В. (по построению системы ПОЭТ) и группы Апресяна Ю.Д.

     Однако, сейчас уже ясно, что существующих лингвистический моделей недостаточно для выделения информационных объектов и их связей..

    

    

     4. ОСНОВНЫЕ НАПРАВЛЕНИЯ НАУЧНЫХ РАЗРАБОТОК.

    

     Для создания системы глубинного семантического анализа первоисточников, осуществляющей выявление информационных объектов и ситуаций, заданных пользователем, требуется развитие следующих методик:

     - Методики выявления в потоке текстовой информации материалов с значимыми терминами, характеризующими наличие информационных объектов, и последующего выделения из полученных материалов информационно значимых элементов дискурса (абзацев, предложений);

     - Использование метода обобщенных морфологических характеристик и предметных каталогов для нормализации слов и выявления терминологических единиц;

     - Глубинная (синтактико-семантическая) обработка выделенных элементов дискурса с выявлением информационных объектов, связей и формированием структур баз знаний;

     - Анализ структур баз знаний с целью выявления комплексных объектов и ситуаций, заданных пользователем.

     Теоретическая новизна обосновывается использованием оригинальных методов, разработанных в рамках научных проектов ИПИРАН: методов нормализации слов, терминологической рубрикации, аппарата расширенных семантических сетей, продукционных методов обработки структур знаний, методов построения семантико-ориентированных лингвистических процессоров. Предлагаемые решения основаны на использовании оригинальных инструментальных средств обработки структур знаний (языка ДЕКЛ), развитии интерфейсной компоненты (DELPHI-7) и программных средств нормализации слов, поддержки предметных каталогов большого объема и средств избирательного поиска в массиве информации

интересующих пользователя элементов дискурса.

    

    

     5. СТРУКТУРА СИСТЕМЫ

    

     Система АНАЛИТИК-2 - это аппаратно-программный комплекс, автоматизирующий процесс ввода, формализации и анализа текстовых документов, их использование в задачах поиска и оперативной

идентификации. Ядро системы АНАЛИТИК-2 включает:

    

     5.1. Уникальный лингвистический процессор, который обеспечивает:

     - автоматическую формализацию текстовой информации на русском языке с выявлением лиц, организаций, промышленных изделий, событий, дат и др., их связей и создание на этой основе собственной базы знаний;

     - использование предметных каталогов и таблиц обобщенных окончаний в процессе морфологического анализа для нормализации слов и терминов и последующего выявления значимых компонент информационных объектов;

     - идентификацию информационных объектов с их приведением к одному виду;

     - автоматическое построение каталогов информационных объектов, выявленных из документов;

     - автоматическое заполнение информационными объектами тематических полей Базы Данных (в автономном режиме).

    

     5.2. Лингвистический процессор содержит программное ядро, работа которого определяется лингвистическими знаниями. Настройка на предметную область - только за счет лингвистических знаний.

                                

     5.3. Сервисные программы, которые на основе информации в базе знаний (БЗ) обеспечивают:

     - поиск информационных объектов по БЗ;

     - поиск похожих объектов и событий на основе критерия их семантической близости;

     - запросы в произвольной форме (на естественном языке) к БЗ;

     - поиск связей (прямых и косвенных) между объектами;

     - выявление и ранжирование объектов по качественным критериям, заданным пользователем (например, по степени активности, степени опасности связанных с ними событий и др.).

     - выявление статистических закономерностей;

     - автоматическое построение графичеких схем, отчетов, диаграмм, отражающих особенности интересующих пользователя объектов.

    

    

     6. ФУНКЦИОНАЛЬНЫЕ ХАРАКТЕРИСТИКИ

                                                                                                                                                                                                                                                         

     Комплекс программ АНАЛИТИК-2 удовлетворяет следующим технологическим требованиям:

    

     6.1. На основе использования методов фильтрации и предметных словарей обеспечивает выявление в текстовых массивах информационно значимых элементов дискурса - абзацев, предложений.

     6.2. Обеспечивает глубинную (синтактико-семантическая) обработку выделенных элементов дискурса с выявлением информационных объектов, связей, событий и формированием структур баз знаний.

     6.3. На основе использования предметных словарей и контекстных грамматик для синтактико-семантического анализа обеспечивает нормализацию элементов текста и выделение следующих информационных объектов и событий:

     - лиц с их особенностями (потерпевший, террорист и др.);

     - адресов, почтовых атрибутов;

     - организаций;

     - номеров телефонов, факсов, е-майлов;

     - средств  транспорта с выделением марки машины, государственного номера, цвета и других атрибутов;

     - паспортных данных;

     - сумм денег с указанием типа валюты;

     - событий (криминальных, террористических, поломки изделий и др.)

с указанием участия в них информационных объектов;

     - количественных характеристик (сколько лиц или других объектов принимали участие в том или ином событии);

     - время и место событий;

     - связей между различными типами информационных объектов (кем работает лицо в той или иной организации, по какому адресу проживает, в каких событиях принимал участие совместно с другими объектами и т.д.).

      6.4. Обеспечивает анализ структур баз знаний с целью выявления комплексных объектов и ситуаций, отвечающих заданию пользователя.

     

   

    7. УСОВЕРШЕНСТВОВАННЫЕ КОМПОНЕНТЫ СИСТМЫ

    

    7.1. Предметные каталоги.

    Система допускает множество каталогов различного содержания. Причем число каталогов заранее не ограничивается и может динамически пополняться (это число может превышать несколько сотен).

Обеспечивается работа с каталогами большого объема: объем определяется только размерами оперативной памяти и накопителей. При этом обеспечивается быстрый поиск (требование эффективности).

Форма исходного вида каталога  сделана максимально простой, допускающей его модификацию специалистами в соответствующих предметных областях.

 

     7.2. Блок автоматического выделения из первоисточников информационно значимых элементов дискурса содержит перечень слов и словосочетаний, характеризующих наличие информационных

объектов. На этой основе блок обеспечивает выделение предложений, в которых с высокой вероятностью могут быть интересующие пользователя объекты. Таким образом обеспечивается фильтрация -

отсеиваются неинформативные предложения. Выделенные предложения подаются на вход блока синтактико-семантического (глубинного) анализа для последующей обработки.

    

     7.3. Автоматическое выявление событий и ситуаций (интересующих пользователя) осуществляется блоком синтактико-семантического анализа после выявления информационных объектов. Для этого блок

дополнен средствами анализа глагольных форм, в том числе, форм с отглагольными существительными, а также средствами анализа причастных и деепричастных оборотов. На этой основе выделяется связь

между объектами, где глаголы характеризуют вид связи и особенности события.

    

     7.4. Направленный поиск материалов по заданию пользователя обеспечивает просмотр Базы знаний с выявлением структур, соответствующих заданию. На этой основе система должна строить

протокол, отвечающий заданию пользователя. Форма записи задания является достаточно простой. А текст формируемого протокола должен быть приближен к языку необученного пользователя.