Главная Страница > Публикации

 

Логико-аналитическая система, основанная на выделении объектов и связей из неформализованных документов.

 

Кузнецов И.П.  igor-kuz@mtu-net.ru,

Мацкевич А.Г.  xmag@mail.ru

 

В конце 90-х годов для правоохранительных органов Москвы была разработана логико-аналитическая система «Криминал», позволяющая в автоматическом режиме выявлять значимые объекты из потока текстовых документов для решения различных аналитических задач. Текстовые документы - это сводки происшествий, справки по уголовным делам, обвинительные заключения, телефонные книжки фигурантов, биллинги телефонных переговоров и др. В них содержится много конкретной информации (или объектов): ФИО фигурантов, их приметы, телефоны, адреса, средства транспорта, орудия преступления и др. Возникает проблема обработки этой информации и использования для аналитических служб. Полнотекстовые базы данных требуют специальной формализации запросов и дают много шумов. Формализация документов специально обученными людьми с заполнением реляционной БД - чрезвычайно трудоемкий процесс. Данная проблема является типичной и для других областей приложения.

Система содержит лингвистический процессор (ЛП), который проводит глубинный анализ документов: морфологический и синтактико-семантический. В результате система преобразует словоформы к одному виду (в каноническую форму) и автоматически выделяет из документов интересующие пользователя объекты и их связи. На этой основе автоматически формируется База Знаний (БЗ), которая служит для логического анализа, нечеткого поиска с учетом особенностей описываемых объектов, событий, происшествий.

Система "Криминал" обеспечивает выделение следующих объектов:

- лиц (по ФИО) с их особенностями (преступник, потерпевший);

- словесного описания лиц, их примет;

- адресов, почтовых атрибутов;

- дат;

- оружия с атрибутами;

- номеров телефонов, факсов, е-mail-ов с их стандартизацией;

- транспортных средств с выделением марки машины, государственного номера, цвета и других атрибутов;

- паспортных данных и других документов с их атрибутами;

- взрывчатых и наркотических веществ;

- отделений милиции, сотрудников милиции и др. (до 40 типов объектов).

 

Примеры выделяемых связей:

- ИМЕТЬ (фигурант имеет оружие, телефон и др.);

- ПРОЖИВАТЬ, ПРОПИСАН (связывает фигуранта и адрес);

- ГДЕ (связывает действие с местом);

- КОГДА (связывает действие с датой или временем) и др.

 

При разработке ЛП удалось преодолеть трудности, связанные с наличием в текстах большого количества сокращений, неоднозначностей (например, Г. может означать ГОД, ГОРОД, ГОС.), умолчаний. Отдельная задача - это идентификация объектов (лиц) по всему тексту, использование для этих целей указательных местоимений, кратких имен, анафорических ссылок.

В результате работы ЛП по каждому документу автоматически строится семантическая сеть специального вида, представляющая содержательную структуру документа. Такие сети играют роль структур знаний, которые составляют БЗ.

Демонстрационный пример документа и его семантической сети представлен на рис.1.

 

Рис.1.

Из содержательных портретов документов выделяются следующие виды объектов (рис. 2).

Рис.2.

 

Выделенные объекты объединяются в каталоги. На рис.3 представлен пример каталога фигурантов:

 

 

Рис.3.

 

Разработанный комплекс программных средств системы «Криминал» был неоднократно модернизирован. Модернизация коснулась, в основном, лингвистического процессора. В [1] описывается система обработки документов, работающая с последними моделями ЛП. Эти же ЛП используются и в новых вариантах «Криминала».

 

В настоящей работе хотелось бы коснуться другой составляющей ЛАС «Криминал», которая отвечает за решение аналитических задач. К таким задачам относятся:

- поиск похожих фигурантов и происшествий по информации, извлеченной автоматически из имеющихся источников;

- контекстный поиск документов;

- поиск фигурантов по словесному портрету;

- поиск информации по запросам на естественном (русском) языке;

- объяснение результатов поиска;

- анализ и отображение связей между фигурантами;

- оценка степени причастности фигуранта к происшествию;

- упорядочение фигурантов по степени их криминальной и преступной активности;

- выявление организованных преступных формирований (на основе связей фигурантов);

- статистическая обработка информации, выдача усредненных и оценочных данных, характеризующих динамику изменения криминогенных процессов во времени.

При поиске похожих фигурантов и происшествий задание на поиск допускается в достаточно произвольной форме. Это может быть запрос на русском языке, заполненная анкета или документ с описанием фигурантов. ФИО может не быть, когда требуется поиск неизвестных лиц.

При поиске похожих фигурантов система выделяет из задания всех фигурантов, для каждого из них находит признаки (слова, числа), соотносит их к той или иной категории (к ФИО, приметам, адресам и др.), приводит к единому виду, устраняя многозначность. Присваивает признакам степень значимости. Путем логического анализа выявляются особенности фигуранта.

Далее осуществляется поиск фигурантов с аналогичными признаками и особенностями. Найденные фигуранты упорядочиваются по степени сходства, которая подсчитывается с учетом следующих факторов:

- количества и значимости совпавших признаков;

- соотнесенности признаков к той или иной категории (приметы сравниваются с приметами, адреса с адресами, имена с именами и инициалами и т.д.);

- сильного совпадения по какой-либо категории признаков (например, совпадения по ФИО или совпадает большинство примет):

- наличия противоречивых признаков.

Фигуранты выдаются пользователю с детальным объяснением причин сходства: указанием совпавших и противоречивых признаков, их значимости.

Поиск является нечетким, так как не требуется полного совпадения. Это важно, так как точный поиск часто не дает результата. При этом находится как общие, так и отличительные черты.

При поиске похожих происшествий решается задача, аналогичная предыдущей. Задание формулируется в произвольной форме. Из него выделяются все значимые слова и признаки. Они приводятся к единому виду и дополняются аналитическими характеристиками, порождаемыми самой системой и отражающими особенность происшествия: способ совершения преступления, используемое оружие и др. Последние играют роль наиболее значимых признаков.

Далее осуществляется поиск похожих происшествий с аналогичными признаками. Найденные документы упорядочиваются по степени сходства, который подсчитывается с учетом следующих факторов:

- количества и значимости совпавших признаков;

- наличия похожих фигурантов или других значимых объектов;

- сильного совпадения по какой-либо категории признаков. Результат  выдается  пользователю  с детальным объяснением причин

сходства.

При поиске похожих фигурантов и происшествий обеспечивается возможность пользователю изменять характер поиска с акцентом на информацию требуемого вида (приметы, адреса и др.) - путем изменения весовых коэффициентов, присваиваемых значимым элементам. Коэффициент ноль означает игнорирование информации соответствующего вида.

 

Для выявление связей одного объекта выдаются каталоги, из которых пользователь должен выбрать интересующий его объект.

Для выбранного объекта строится граф связей - прямых и косвенных.

Прямые связи - связи с другими объектами в рамках одного происшествия. Например, для фигуранта - это адрес проживания, владение оружием и др. Это связи 1-го уровня.

Косвенные связи - это связь через другие объекты. Например, связанными считаются фигуранты, если они входят в происшествия, в которых встретился один и тот же телефон (или какой либо другой объект). Это связи 2-го уровня.

Для найденных объектов также может осуществляться поиск связей. Это связи 3-го и более высоких уровней.

Система последовательно строит граф связей, где вершины - это объекты, а дуги - связи между объектами. При этом вначале строится граф связей 1-го уровня. Пользователь может сказать системе "Перейти на поиск связей 2-го уровня" и т.д. Система решает задачу поиска связей любой глубины. Для каждого объекта на графе пользователь может посмотреть, в какие документы он входит, посмотреть текст документа, удалить объект или же искать только его связи.

На рис.4, рис.5 представлены результаты поиска связей одного фигуранта в графическом виде и виде протокола.

Рис.4, Рис.5.

 

При выявление связей между двумя объектами два раза выдаются каталоги, из которых пользователь должен выбрать два интересующих его объекта. Система ищет связи 1-го уровня между этими объектами. Если их нет, то она спрашивает, перейти ли на поиск связей 2-го уровня (косвенных связей) и т.д.

Результат поиска связей двух фигурантов также может быть представлен в виде протокола (рис.6.) или в графическом виде (рис.7.)

Рис. 6.

Рис.7.

 

Здесь описаны или перечислены аналитические задачи, интересные для правоохранительных органов. Представляется, что в прикладных системах обработки информации органов государственной власти могут использоваться как разработанные лингвистические процессоры, так и аналитические режимы работы, аналогичные разработанным для ЛАС «Криминал».

 

Литература

       1. Кузнецов И.П., Ефимов Д.А., Кузнецов К.И. Система обработки документов на основе семантического анализа и технологии баз знаний. Настоящий сборник.

2. Кузнецов И.П., Мацкевич А.Г. Семантико-ориентированные системы на основе баз знаний// М. МТУСИ. 2007г. 173 с.

3. Кузнецов И.П. Методы обработки сводок с выделением особенностей фигурантов и происшествий // Труды международного семинара Диалог-1999 по компьютерной лингвистике и ее приложениям. Том 2. Таруса 1999.

4. Kuznetsov, I., Kozerenko, E. The system for extracting semantic information from natural language texts // Proceeding of International Conference on Machine Learning. MLMTA-03, Las Vegas US, 23-26 June 2003, p. 75-80.