Главная Страница > Проекты |
Система извлечения предметных знаний из
текстовых сообщений для задач содержательного поиска и аналитической обработки
(1999-2000г.)
Научный руководитель д.т.н., проф. Кузнецов Игорь Петрович
Задача. Разработка моделей и программных средств
для логико-аналитических систем обработки больших потоков текстов, осуществляющих
автоматический ввод документов с использованием лингвистических методов анализа
для их формализации с созданием собственной базы знаний (БЗ). Направленное
извлечение знаний из текстов естественного языка. Поиск похожих документов и
упоминавшихся в них объектов на основе критерия их семантической близости,
ответ на естественно-языковые запросы.
Результаты за 1999 г.
Теоретические.
Разработаны методики и алгоритмы извлечения значимых (информационных) объектов
из различных типов документов с учетом имеющихся сокращений и принятых форм
изложения.
Практические.
Разработана интеллектуальная система (АНАЛИТИК), работающая с различными типами
документов - сводками происшествий, словесными портретами фигурантов,
телефонными книжками. Система обеспечивает выделение значимых объектов с их
свойствами, атрибутами. На этой основе формируются семантические сети,
называемые содержательными портретами документов. Они образуют базу знаний
(БЗ), где осуществляется логико-аналитическая обработка. В процессе выделения
строятся каталоги значимых объектов (фигурантов, адресов и др.) и их признаков
(ФИО, примет, особенностей одежды и др.). При выборе пункта каталога на основе
структур БЗ осуществляется быстрый поиск соответствующей информации с
определением ее местонахождения в текстах. Система прошла апробацию в ГУВД г. Москвы на сводках криминальной милиции большого объема -
порядка 500 мбт.
Результаты за 2000 г.
Теоретические. Разработаны лингвистические знания для уменьшения шумов
и потерь при выделении значимых объектов. Разработаны методики поиска значимых
объектов (фигурантов адресов и др.) по связям - применительно к задачам
криминальной милиции. Объекты считаются связанными, если они входят в один
документ, в котором фиксируется их связь, или же если они находятся в разных
документах, в которых фиксируется их связь с одним и тем же объектом - адресом,
телефоном и др. Поиск осуществляется по уровням, отражающим отдаленность
связей. В процессе поиска формируются граф и протокол связей.
Практические. На основе предложенных методик разработаны блоки поиска
связанных объектов (фигурантов, адресов и др.), а также формирования на этой
основе протокола и графа связей. В результате разработана более совершенная
интеллектуальная система, работающая с различными типами документов и с
достаточной степенью точности выделяющая из них значимые объекты. Эта система
(помимо других задач) обеспечивает решение важнейшей задачи криминальной
милиции - оперативной идентификации. При этом пользователь имеет возможность настраивать
систему на поиск, указывая тип объектов, по которым ищутся связи, а также
допустимую степень их полноты и похожести. Система прошла приемо-сдаточные
испытания в рамках договора с ГУВД г. Москвы.
Система автоматического выявления из
текстов значимой информации с ее компоновкой в рамках указанных шаблонов
( 2001 - 2003
г.)
Научный руководитель д.т.н., проф. Кузнецов Игорь Петрович
Задача.
Совершенствование системы АНАЛИТИК в следующих направлениях. Во-первых,
развитие методов морфологического и синтактико-семантического анализа текстов
для выделения новых типов объектов, а также для анализа текстов английского
языка. Во-вторых, создание оболочки, управляемой лингвистическими знаниями и
формирующей результаты в соответствии с шаблонами, задаваемыми пользователем. В
третьих, решение новых задач в рамках технологии БЗ: анализа криминальной
активности объектов (фигурантов. адресов),
оценки частотности объектов, анализ процессов их появления на временной оси и др.
В четвертых, создание англоязычной версии системы АНАЛИТИК.
Результаты за 2001 г.
Теоретические. Разработаны методики выделения из текстов семантически
значимой информации с учетом шаблонов, которые задаются пользователем. Для
этого предложены специального вида позиционные грамматики, у которых с каждой
позицией связан И-ИЛИ граф. Вершинами графа являются
признаки слов - морфологические и семантические.
Практические. Разработан лингвистический процессор, осуществляющий
разбор предложений под управлением шаблонов. Шаблоны записываются в виде
семантических сетей, которые определяют выделяемые контексты и их соответствие
значимым объектам. Такие сети образуют лингвистические знания. Работа
процессора проверена на материале СМИ по схеме (шаблону):
ВИД ЗАБАСТОВКИ - ИХ КОЛИЧЕСТВО - КТО УЧАСТВУЕТ - ВРЕМЯ - МЕСТО
ВИД ПРЕСТУПЛЕНИЯ - ИХ КОЛИЧЕСТВО - ВРЕМЯ - МЕСТО.
Процессор нашел
применение в рамках договорной темы "Разработка
типовой логико-аналитической системы Криминал",
которая успешно прошла испытания и сдана для работы в органы МВД.
Результаты за 2002 г.
Теоретические. В рамках позиционных грамматик разработаны методики
выделения новых объектов: паспортных данных, номеров счетов и др. Для
приложений к задачам криминальной милиции разработаны методики решения новых
задач: оценки степени связанности объектов, а также анализ частотности объектов
и процесса их временного появления.
Практические. Разработаны
средства лингвистического процессора. обеспечивающие выделение новых объектов. В блок
морфологического анализа введены каталоги. дающие дополнительные признаки словам – их соотнесение к
странам, национальностям и др. В результате стало возможным более точное
выделение значимых объектов. В рамках приложения к системе "Криминал"
разработаны программы анализа криминальной активности объектов (фигурантов. адресов), оценки частотности
появления объектов, анализа процессов их временного появления в происшествиях.
Система успешно прошла предварительные испытания на базе ИАО ГУВД г. Москвы.
Результаты за 2003 г.
Теоретические. Развитие позиционных грамматик применительно к анализу
текстов английского языка.
Практические. Разработана англоязычная версия системы АНАЛИТИК-1, обеспечивающая
автоматическое извлечение значимой информации из текстовых сообщений на
английском языке. Для этого (на языке DECL) разработан блок морфологического
анализа слов английского языка. Адаптированы русскоязычные блоки лексического и
синтактико-семантического анализа применительно к английскому языку. В результате
создана двуязычная лингвистическая оболочка. Для нее разработаны англоязычные
лингвистические знания, обеспечивающие выделение лиц, адресов, дат,
словосочетаний, глагольных форм и др. с автоматическим формированием
содержательных портретов – семантических сетей.
Проверка работы
осуществлялась на примере анализа англоязычных текстов, касающихся объявлений о
продаже земельных участков с аукциона. Обеспечивалось
выделение значимой информации по схеме: заданными пользователем. Например, ШТАТ - ВРЕМЯ ПОСТУПЛЕНИЯ ЗАЯВКИ – СОБСТВЕННИК - ЦЕНА -
МЕСТОРАСПОЛОЖЕНИЕ - ДАТА ПРОДАЖ - СВЯЗЬ (e-mail,
адрес) - ОСОБЕННОСТИ УЧАСТКА.
Опубликованные материалы.
1. Кузнецов И.П., Козеренко Е.Б. Поиск
языковых универсалий для лингвистического моделирования на расширенных семантических сетях. Труды Междунар. семинара Диалог'99 по компьютерной лингвистике и
ее приложениям: В 2 т. Т. 2. Под ред. А.С. Нариньяни. 1999. - С. 157-164.
2. Кузнецов И.П.,
Мацкевич А.Г. Методы поиска похожих
объектов и событий на основе
признаков и связей. Труды Междунар. Семинара Диалог'99
по компьютерной лингвистике и ее приложениям: В 2 т. Т. 2. Под ред. А.С.
Нариньяни. 1999. - С. 164-171.
3. Кузнецов И.П. Принципы анализа компонент текста в семантико-ориентированном
лингвистическом процессоре. Сб.
Системы и средства информатики. Вып.7. М. Наука 2000.
4. Кузнецов И.П.,
Мацкевич А.Г. Лингвистический процессор
для автоматического выявления из
текстов значимой информации с ее компоновкой в рамках указанных шаблонов. Труды межд. Семинара Диалог-2001
по комп. лингвистике и её приложениям: Т.2. Москва,
2001.
5. Кузнецов И.П.,
Мацкевич А.Г. Система извлечения
семантической информации из текстов
естественного языка. Труды межд. Семинара Диалог-2001 по компьютерной
лингвистике и её приложениям: Т.2. Москва, 2002.
6. Кузнецов И.П.,
Мацкевич А.Г. Особенности организации
базы предметных и лингвистических
знаний в система АНАЛИТИК. Труды Междунар. конференции Диалог-2003 по компьютерной
лингвистике и интеллектуальным технологиям. Протвино, 11-16.06 2003, стр.
373-378.
7. Igor Kuznetsov, Elena Kozerenko. The system for extracting semantic information from natural
language texts. Proceeding of International Conference on Machine Learning,
MLMTA-03, Las Vegas US, 23-26 June 2003, p. 75-80.
8. Кузнецов И.П., Синицин И.Н. Система
глубинной семантической обработки текстов для задач поиска информационных
объектов и логико-аналитических решений. Тула. "Конф.
по интеллектуальным системам и их приложения", 2003.
9. Кузнецов И.П., Особенности обработки текстов естественного языка
на основе технологии баз знаний.
Сб. ИПИ РАН «Системы и средства информатики»
Вып.13, 2003 г. стр. 241-250.