Главная Страница > Проекты

   Система извлечения предметных знаний из текстовых сообщений для задач содержательного поиска и аналитической обработки  

                       (1999-2000г.)   

 

     Научный руководитель  д.т.н., проф. Кузнецов Игорь Петрович

 

     Задача. Разработка моделей и программных средств для логико-аналитических систем обработки больших потоков текстов, осуществляющих автоматический ввод документов с использованием лингвистических методов анализа для их формализации с созданием собственной базы знаний (БЗ). Направленное извлечение знаний из текстов естественного языка. Поиск похожих документов и упоминавшихся в них объектов на основе критерия их семантической близости, ответ на естественно-языковые запросы.

 

     Результаты за 1999 г.

     Теоретические. Разработаны методики и алгоритмы извлечения значимых (информационных) объектов из различных типов документов с учетом имеющихся сокращений и принятых форм изложения.

     Практические. Разработана интеллектуальная система (АНАЛИТИК), работающая с различными типами документов - сводками происшествий, словесными портретами фигурантов, телефонными книжками. Система обеспечивает выделение значимых объектов с их свойствами, атрибутами. На этой основе формируются семантические сети, называемые содержательными портретами документов. Они образуют базу знаний (БЗ), где осуществляется логико-аналитическая обработка. В процессе выделения строятся каталоги значимых объектов (фигурантов, адресов и др.) и их признаков (ФИО, примет, особенностей одежды и др.). При выборе пункта каталога на основе структур БЗ осуществляется быстрый поиск соответствующей информации с определением ее местонахождения в текстах. Система прошла апробацию в ГУВД г. Москвы на сводках криминальной милиции большого объема - порядка 500 мбт.

    

     Результаты за 2000 г.

     Теоретические. Разработаны лингвистические знания для уменьшения шумов и потерь при выделении значимых объектов. Разработаны методики поиска значимых объектов (фигурантов адресов и др.) по связям - применительно к задачам криминальной милиции. Объекты считаются связанными, если они входят в один документ, в котором фиксируется их связь, или же если они находятся в разных документах, в которых фиксируется их связь с одним и тем же объектом - адресом, телефоном и др. Поиск осуществляется по уровням, отражающим отдаленность связей. В процессе поиска формируются граф и протокол связей.

     Практические. На основе предложенных методик разработаны блоки поиска связанных объектов (фигурантов, адресов и др.), а также формирования на этой основе протокола и графа связей. В результате разработана более совершенная интеллектуальная система, работающая с различными типами документов и с достаточной степенью точности выделяющая из них значимые объекты. Эта система (помимо других задач) обеспечивает решение важнейшей задачи криминальной милиции - оперативной идентификации. При этом пользователь имеет возможность настраивать систему на поиск, указывая тип объектов, по которым ищутся связи, а также допустимую степень их полноты и похожести. Система прошла приемо-сдаточные испытания в рамках договора  с ГУВД г. Москвы.

                                 

         

   

     Система автоматического выявления из текстов значимой информации с ее компоновкой в рамках указанных шаблонов

                                      ( 2001 - 2003 г.)

 

     Научный руководитель  д.т.н., проф. Кузнецов Игорь Петрович

    

     Задача. Совершенствование системы АНАЛИТИК в следующих направлениях. Во-первых, развитие методов морфологического и синтактико-семантического анализа текстов для выделения новых типов объектов, а также для анализа текстов английского языка. Во-вторых, создание оболочки, управляемой лингвистическими знаниями и формирующей результаты в соответствии с шаблонами, задаваемыми пользователем. В третьих, решение новых задач в рамках технологии БЗ: анализа криминальной активности объектов (фигурантов. адресов), оценки частотности объектов, анализ процессов их появления на временной оси и др. В четвертых, создание англоязычной версии системы АНАЛИТИК.

    

     Результаты за 2001 г.

     Теоретические. Разработаны методики выделения из текстов семантически значимой информации с учетом шаблонов, которые задаются пользователем. Для этого предложены специального вида позиционные грамматики, у которых с каждой позицией связан И-ИЛИ граф. Вершинами графа являются признаки слов - морфологические и семантические.

     Практические. Разработан лингвистический процессор, осуществляющий разбор предложений под управлением шаблонов. Шаблоны записываются в виде семантических сетей, которые определяют выделяемые контексты и их соответствие значимым объектам. Такие сети образуют лингвистические знания. Работа процессора проверена на материале СМИ по схеме (шаблону):

ВИД ЗАБАСТОВКИ - ИХ КОЛИЧЕСТВО - КТО УЧАСТВУЕТ - ВРЕМЯ - МЕСТО ВИД ПРЕСТУПЛЕНИЯ - ИХ КОЛИЧЕСТВО - ВРЕМЯ - МЕСТО.

     Процессор нашел применение в рамках договорной темы "Разработка типовой логико-аналитической системы Криминал", которая успешно прошла испытания и сдана для работы в органы МВД.

 

 

     Результаты за 2002 г.

     Теоретические. В рамках позиционных грамматик разработаны методики выделения новых объектов: паспортных данных, номеров счетов и др. Для приложений к задачам криминальной милиции разработаны методики решения новых задач: оценки степени связанности объектов, а также анализ частотности объектов и процесса их временного появления.

     Практические. Разработаны средства лингвистического процессора. обеспечивающие выделение новых объектов. В блок морфологического анализа введены каталоги. дающие дополнительные признаки словам – их соотнесение к странам, национальностям и др. В результате стало возможным более точное выделение значимых объектов. В рамках приложения к системе "Криминал" разработаны программы анализа криминальной активности объектов (фигурантов. адресов), оценки частотности появления объектов, анализа процессов их временного появления в происшествиях. Система успешно прошла предварительные испытания на базе ИАО ГУВД г. Москвы.

    

     Результаты за 2003 г.

     Теоретические. Развитие позиционных грамматик применительно к анализу текстов английского языка.

     Практические. Разработана англоязычная версия системы АНАЛИТИК-1, обеспечивающая автоматическое извлечение значимой информации из текстовых сообщений на английском языке. Для этого (на языке DECL) разработан блок морфологического анализа слов английского языка. Адаптированы русскоязычные блоки лексического и синтактико-семантического анализа применительно к английскому языку. В результате создана двуязычная лингвистическая оболочка. Для нее разработаны англоязычные лингвистические знания, обеспечивающие выделение лиц, адресов, дат, словосочетаний, глагольных форм и др. с автоматическим формированием содержательных портретов – семантических сетей.

     Проверка работы осуществлялась на примере анализа англоязычных текстов, касающихся объявлений о продаже земельных участков с аукциона. Обеспечивалось выделение значимой информации по схеме: заданными пользователем. Например, ШТАТ - ВРЕМЯ ПОСТУПЛЕНИЯ ЗАЯВКИ – СОБСТВЕННИК - ЦЕНА - МЕСТОРАСПОЛОЖЕНИЕ - ДАТА ПРОДАЖ - СВЯЗЬ (e-mail, адрес) - ОСОБЕННОСТИ УЧАСТКА.

 

      Опубликованные материалы.

  

   1. Кузнецов И.П., Козеренко Е.Б. Поиск языковых универсалий для лингвистического моделирования на расширенных семантических сетях. Труды Междунар. семинара Диалог'99 по компьютерной лингвистике и ее приложениям: В 2 т. Т. 2. Под ред. А.С. Нариньяни. 1999. - С. 157-164.

    2. Кузнецов И.П., Мацкевич А.Г. Методы поиска похожих объектов и событий на основе признаков и связей. Труды Междунар. Семинара Диалог'99 по компьютерной лингвистике и ее приложениям: В 2 т. Т. 2. Под ред. А.С. Нариньяни. 1999. - С. 164-171.

    3. Кузнецов И.П. Принципы анализа компонент текста в семантико-ориентированном лингвистическом процессоре. Сб. Системы и средства информатики. Вып.7. М. Наука 2000.

     4. Кузнецов И.П., Мацкевич А.Г. Лингвистический процессор для автоматического выявления из текстов значимой информации с ее компоновкой в рамках указанных шаблонов. Труды межд. Семинара Диалог-2001 по комп. лингвистике и её приложениям: Т.2. Москва, 2001.

     5. Кузнецов И.П., Мацкевич А.Г. Система извлечения семантической информации из текстов естественного языка. Труды межд. Семинара Диалог-2001 по компьютерной лингвистике и её приложениям: Т.2. Москва, 2002.

     6. Кузнецов И.П., Мацкевич А.Г. Особенности организации базы предметных и лингвистических знаний в система АНАЛИТИК. Труды Междунар. конференции Диалог-2003 по компьютерной лингвистике и интеллектуальным технологиям. Протвино, 11-16.06 2003, стр. 373-378.

     7. Igor Kuznetsov, Elena Kozerenko. The system for extracting semantic information from natural language texts. Proceeding of International Conference on Machine Learning, MLMTA-03, Las Vegas US, 23-26 June 2003, p. 75-80.

     8. Кузнецов И.П., Синицин И.Н. Система глубинной семантической обработки текстов для задач поиска информационных объектов и логико-аналитических решений. Тула. "Конф. по интеллектуальным системам и их приложения", 2003.

     9. Кузнецов И.П., Особенности обработки текстов естественного языка на основе технологии баз знаний. Сб. ИПИ РАН «Системы и средства информатики»  Вып.13, 2003 г. стр. 241-250.