Главная Страница > Системы

      Логико-аналитическая система "Криминал"

Выделяемые информационные объекты (до 40 типов) с их связями:

 

Система "Криминал" является уникальной по своим возможностям, что определяется использованием семантико-ориентированного лингвистического процессора и технологии БЗ. Эта система нашла применение в аналитических отделах ГУВД и МВД.

1. Задачи системы

Логико-аналитическая система "Криминал" была создана для повышения эффективности оперативно-розыскной деятельности подразделений органов внутренних дел (ОВД) различного уровня.

Система "Криминал" базируется на документах, поступающих из различных источников ОВД:

- сводки, объяснительные, служебные записки ОВД;

- записные книжки;

- отчеты, документы общего назначения, газетные публикации;

- словесные портреты фигурантов и другие сведения, введенные операторами на рабочих местах в установленном формате.

Актуальные задачи логико-аналитической обработки документов:

- содержательный анализ документа с автоматическим выделением значимой информации и ее формализацией;

- поиск похожих происшествий и фигурантов по информации, извлеченной автоматически из имеющихся источников;

- контекстный поиск документов;

- поиск фигурантов по словесному портрету;

- поиск информации по запросам на естественном (русском) языке;

- объяснение результатов поиска;

- анализ и отображение связей между фигурантами;

- оценка степени причастности фигуранта к происшествию;

- упорядочение фигурантов по степени их криминальной и преступной активности;

- выявление организованных преступных формирований (на основе свя­зей фигурантов);

- статистическая обработка информации, выдача усредненных и оценочных данных, характеризующих динамику изменения криминогенных процессов во времени.

Для сбора всей поступающей информации, ее хранения, автоматического анализа и решения перечисленных выше задач сотрудниками ИПИ РАН разработана комплексная система "Криминал", обеспечивающая информационную поддержку оперативно-розыскной и предупредительно-профилактической деятельности.

Система "Криминал" ориентируется на автоматическую обработку документов, что определяется следующими факторами:

- большими потоками оперативно-следственной информации в подразделениях ОВД;

- неформализованным характером поступающей информации (это тексты естественного языка);

- высокой трудоемкостью формализации документов специально обученными людьми (документы ОВД характеризуются наличием большого количества фактографического материала, который должен быть выявлен, приведен к определенному виду и сохранен в определенной таблице - в соответствие со схемой БД);

- необходимостью исключить последствия недобросовестной работы людей при формализации документов.

2. Структура логико-аналитической системы

Логико-аналитическая система "Криминал" - это аппаратно-программный комплекс, автоматизирующий процесс ввода, формализации и анализа текстовых документов (сводок происшествий и др.), их использование в задачах поиска и оперативной идентификации.

Система содержит собственные базы данных и знаний, а также терминологический словарь.

База данных (БД) системы "Криминал" служит для хранения поступающих документов и структур знаний. Документы могут быть:

- в виде текстов естественного (русского) языка;

- в виде информационных карточек.

Система "Криминал" обеспечивает автоматический ввод документов в БД с рабочих мест, а также ручной ввод информационных карточек в соответствии с форматами, принятыми в криминальной милиции.

По мере поступления документов или карточек автоматически выделяются ключевые слова и переводятся в каноническую форму. На их основе строятся индексные файлы, обеспечивающие быстрый выбор документов.

База знаний (БЗ) системы "Криминал" обеспечивает:

- хранение значимой информации и связей;

- эффективный поиск и анализ информации по связям.

Знания в БЗ представляются в виде структур, которые состоят из информационных объектов (это фигуранты, адреса, телефоны, транспорт, виды оружия, даты и др.) и их связей. Причем связи могут быть разными. Например, это может быть принадлежность какого-либо объекта фигуранту, проживание, прописка, а также участие объектов в одном действии, его время, место. Объекты и связи записываются в нотации расширенных семантических сетей (РСС). В результате образуются структуры знаний, называемые  содержательными портретами документов. БЗ обеспечивает значительно более полное представление информации (связей), чем существующие БД.

Содержательные портреты (как и документы) шифруются и помещаются в БД, ориентированную на большие потоки информации и обеспечивающую их быстрый выбор с дешифровкой - за счет индексных файлов. Такие портреты подкачиваются в оперативную память по мере необходимости, образуя активную часть БЗ. Итак, структуры БЗ хранятся в БД, обеспечивающей работу с большими объемами информации.

Для построения содержательных портретов используется объектно-ориентированный лингвистический процессор, который обеспечивает автоматическое выделение из документов (текстов) всей значимой информации: фигурантов, их примет, адресов, номеров их автомобилей, оружия и др.

Далее следует пост-лингвистическая обработка, заключающаяся в логическом анализе и выделении наиболее значимых характеристик документа: орудий преступления, способа его совершения, способа проникновения и др. Осуществляется дополнение документа атрибутами - в соответствии с классификаторами, принятыми в криминальной милиции. Вся выделенная информация образует содержательный портрет документа, где представлены значимые элементы текста и их связи.

Такие портреты, представленные в нотации семантических сетей, образуют базу знаний, которая является основой для логико-аналитической обработки. За счет выделения значимой информации, ее дифференциации и использования связей удается повысить качество решения перечисленных ранее задач поиска и идентификации для оперативно-розыскной деятельности.

Терминологический словарь хранится в БЗ и определяет семантическое пространство терминов и признаков - с учетом их смысловой близости, синонимии и взаимоотрицания. За счет этого расширяется пространство поиска, повышается точность и надежность результатов, обеспечивается достаточная свобода использования слов и терминов в запросах и заданиях системе.

На основе содержательных портретов строятся предметные каталоги. Это списки фигурантов, адресов и других объектов (которые были выявлены из документов), упорядоченные по алфавиту. Такие списки делают поиск направленным. Пользователь может выбрать из них любой объект для последующего анализа.

3. Содержательные портреты

Содержательные портреты перечисленных ранее документов - это структуры знаний, которые строятся автоматически (путем анализа текстовых документов и информационных карточек) и которые необходимы для обеспечения быстрого и качественного поиска информации по значимым компонентам и связям, см. п. 3.1. Рассмотрим особенности таких портретов с учетом криминального характера информации.

В системе "Криминал" с помощью лингвистического процессора из документа автоматически извлекается следующая значимая информация следующего вида:

- фигуранты, упоминавшиеся в документе (в том числе, неизвестные лица), каждому выявленному фигуранту должен быть присвоен свой код;

- ФИО каждого фигуранта;

- приметы каждого фигуранта;

- национальность;

- адрес каждого фигуранта (где родился, прописан, где проживает);

- место работы, должность каждого фигуранта;

- номера телефонов фигурантов;

- место и время происшествия;

- по какой статье проходит происшествие;

- марка и номер машины, ее особенности;

- тип оружия, его номерной знак и другие особенности;

- соотнесенность к предложению.

Значимые элементы каждого документа группируются по видам, образуя, к примеру, приметы фигуранта, его адрес, или же указывая на соотнесенность к определенному предложению документа. Подобная группировка позволяет более обоснованным образом сравнивать документы, искать похожие происшествия и фигурантов.

Пример содержательного портрета.

Типовой документ (с номером 221) из сводок происшествий:

1.05.98г. в 7.10 Фирсова Владимира Николаевича 1953г.р прож.уллаголева 25-1-273, работает АОЗТ "ХДУ", зам. директора, о том, что 1-05-98г. неизвестные от д.22 кор.3 по ул.Тухачевского, похитили а/м ГАЗ 31029, черная, 1995 г/в, дв.402-0019476, кузов 0285927...

Его содержательный портрет имеет вид:

ДОК_(221,'TEXT_98.TXT','S_CRI.NL') ДАТА_(#1.5.1998,1998,МАЙ,~1,7.1/4+)  4-(221,ДАТА_) FIO(ФИРСОВЛАДИМИР,НИКОЛАЕВИЧ,1953/5+)  5-(221,FIO) АДР_(УЛ.,ГЛАГОЛЕВА,25,1,273/6+)  6-(221,АДР_)

ПРОЖ.(5-,6-/7+)

ОРГ_(АОЗТ,ХДУ/8+)  8-(221,ОРГ_)

РАБ_(5-,8-,ЗАМ.ИРЕКТОР/9+)

FIO(" "," "," ",НЕСКОЛЬКО/10+)  10-(221,FIO)

НЕИЗВЕСТНЫЙ(10-) АВТО_(АВТОМАШИНААЗ,31029,ЧЕРНЫЙ,1995,Г\В,ДВ.,402,19476, КУЗОВ,285927,УЧЕТ/11+)  11-(221,АВТО_)

УГНАТЬ(10-,11-/12+)

ДАТА_(#1.5.1998,1998,МАЙ,~1/14+)  4-(221,ДАТА_)

КОГДА(12-,14-)

АДР_(УЛ.УХАЧЕВСКИЙ,ДОМ,22,КОРП.,3/15+) 15-(221,АДР_) ГДЕ(12-,15-)

ПРЕДЛ_(221,4-,5-,6-,8-,9-,ООМ,12-,14-,15-)

Первый фрагмент ДОК_(221,'TEXT_98.TXT','S_CRI.NL') указывает, что содержательный портрет построен на основе документа 221 из файла 'TEXT_98.TXT'. При этом были использованы лингвистические знания 'S_CRI.NL'. Второй фрагмент представляет дату. Добавка 4-(221,ДАТА_) указывает на принадлежность даты к документу 221. Такие фрагменты необходимы для быстрого поиска нужных фрагментов, когда в оперативной памяти (БЗ) находится множество содержательных портретов. Последний фрагмент ПРЕДЛ_(221,...) содержит коды других фрагментов и представляет порядок расположения соответствующей информации в тексте документа.

Такие сети представляют достаточно высокий уровень формализации текстов и удобны для обработки - с помощью инструментальных средств ДЕКЛ.

4. Особенности анализа естественного языка

Вначале сводка автоматически делится на части - из нее выделяются документы. Из каждого документа выделяются поля, в которых записаны определенные сведения, например, характер происшествия, округ и др. Далее начинает работу лингвистический процессор, который осуществляется построение содержательного портрета документа, см. главу 3. Этот процессор имеет свои особенности.

Блок синтактико-семантического анализа (помимо сказанного ранее) выполняет следующие функции:

- по ФИО и словам-индикаторам (словам типа "неизвестный", "лицо", "агент" и др.) выявляет фигурантов, упоминавшихся в документе;

- для каждого выявленного фигуранта находит в документе их год рождения, пол, кличку и другую относящуюся к нему информацию;

- для неизвестных лиц выявляет их количество;

- идентифицирует фигурантов внутри документа (по их сокращенным названиям, отдельному упомянутому имени, фамилии, кличке);

- определяет время и место происшествия (в том числе, территориальный округ УВД);

- выделяет значимые компоненты документа: приметы лиц (групп лиц), адреса, телефоны, характеристики машин, статьи УК, используемое оружие и все имеющиеся в данные о нем (тип, номерной знак, патроны);

- относит значимые компоненты документа к фигурантам, формируя таким образом словесные портреты фигурантов;

- группирует значимые элементы по их соотнесенности к одному виду;

- для каждого предложения указывает номер документа, к которому относится это предложение;

- для каждого значимого элемента или группы элементов указывает место в предложении;

- если значимый элемент или группа элементов не может быть связана с каким-либо фигурантом, то они связываются с номером документа;

- если для значимого элемента не может быть указан вид информации, которую он представляет, то он соотносится с предложением.

Блок синтактико-семантического анализа имеет возможность внешней подстройки под тип документа - путем пополнения слов-индикаторов (служебных слов) и указания незначимых слов (обычно это - союзы, предлоги, вспомогательные глаголы, понятия широкого объема).

5. Терминологический словарь

Терминологический словарь (ТС) обеспечивает представление типовых классификаторов, используемых в криминальной милиции для различения особенностей происшествий и фигурантов, и служит для выявления значимых характеристик документа, расширения пространства поиска и формирования объяснительной компоненты. ТС хранится в файле в нотации семантических сетей. ТС содержит значимые слова, словосочетания и связи между ними, представленные в нотации семантических сетей (РСС).

ТС содержит следующие виды связей:

- род-вид (класс-подкласс);

- безусловные синонимы;

- условные синонимы (слова совпадают по смыслу при определенном контексте);

- антонимы (противоположные по смыслу);

- взаимоисключающие;

- близкие по смыслу (из одного вытекает другое);

- образующие значимые словосочетания.

ТС включать в себя словари значимых слов и связей, относящихся к происшествиям и фигурантам.

Словарь значимых слов и связей, относящихся к происшествиям, содержит следующие классы:

- предварительные действия;

- способ проникновения;

- способ совершения преступления;

- преступные действия;

- предлог;

- организация;

- оружие;

- транспортные  средства;

- ценные бумаги;

- драгоценные изделия;

- ценные изделия.

Словарь значимых слов и связей, относящихся к фигурантам, содержит следующие классы, указывающие на особенности фигуранта:

- пол;

- особые приметы;

- индивидуальные особенности;

- телосложение;

- тип лица;

- волосы;

- глаза;

- лоб;

- брови;

- нос;

- рот;

- губы;

- зубы;

- подбородок;

- уши;

- одежда.

Каждый класс делится на подклассы и элементы - в соответствии с классификацией, принятой в криминальной милиции. В результате образуются узлы родо-видового дерева, составляющие терминологический словарь. С каждым узлом родо-видового дерева, характеризующим особенности происшествия или фигуранта, связаны индикаторные слова или словосочетания, определяющие принадлежность информации к данному узлу.

6. Выявление особенностей происшествий и фигурантов

Автоматическое выявление особенностей документа осуществляется программой пост-лингвистической обработки, обеспечивающей на основе терминологического словаря содержательный анализ информации документа с пополнением его содержательного портрета значимыми характеристиками, а именно, автоматическое выявление атрибутов фигуранта, его словесного портрета, формирование по классификатору особенностей происшествия.

Программа пост-лингвистической обработки осуществляет следующие функции:

- в каждом содержательном портрете документа приводит синонимичные слова к одному виду;

- для каждого документа, описывающего происшествие, находит информацию, подтверждающую принадлежность к определенному подклассу, а также наличие узла, характеризующего особенность происшествия в соответствии с классификатором терминологического словаря;

- для каждого фигуранта находит информацию, характеризующую его словесный портрет в соответствии с классификатором терминологического словаря.

Выявленная информация, характеризующая особенности происшествия или фигуранта, представляется в нотации семантических сетей и дополняет содержательный портрет документа.

Помимо этого, имеется обратный лингвистический процессор, обеспечивающий преобразование выявленной информации с нотации семантических сетей на естественный (русский) язык с понятным описанием особенностей происшествия и фигурантов.

7. Поиск похожих фигурантов и происшествий

Задание на поиск допускается в достаточно произвольной форме. Это может быть запрос на русском языке, заполненная анкета или документ с описанием фигурантов. ФИО может не быть, когда требуется поиск неизвестных лиц.

При поиске похожих фигурантов система выделяет из задания всех фигурантов, для каждого из них находит признаки (слова, числа), соотносит их к той или иной категории (к ФИО, приметам, адресам и др.), приводит к единому виду, устраняя многозначность. Присваивает признакам степень значимости. Путем логического анализа выявляются особенности фигуранта (см. п.5).

Далее осуществляется поиск фигурантов с аналогичными признаками и особенностями. Найденные фигуранты упорядочиваются по степени сходст­ва, которая подсчитывается с учетом следующих факторов:

- количества и значимости совпавших признаков;

- соотнесенности признаков к той или иной категории (приметы сравниваются с приметами, адреса с адресами, имена с именами и инициалами и т.д.);

- сильного совпадения по какой-либо категории признаков (например, совпадения по ФИО или совпадает большинство примет):

- наличия противоречивых признаков.

Фигуранты выдаются пользователю с детальным объяснением причин сходства: указанием совпавших и противоречивых признаков, их значимости.

Поиск является нечетким, так как не требуется полного совпадения. Это важно, так как точный поиск часто не дает результата. При этом находится как общие, так и отличительные черты.

При поиске похожих происшествий решается задача, аналогичная предыдущей. Задание формулируется в произвольной форме. Из него выделяются все значимые слова и признаки. Они приводятся к единому виду и дополняются аналитическими характеристиками, порождаемыми самой системой и отражающими особенность происшествия: способ совершения преступления, используемое оружие и др. Последние играют роль наиболее значимых признаков,

Далее осуществляется поиск похожих происшествий с аналогичными признаками. Найденные документы упорядочиваются по степени сходства, которая подсчитывается с учетом следующих факторов:

- количества и значимости совпавших признаков;

- наличия похожих фигурантов или других значимых объектов;

- сильного совпадения по какой-либо категории признаков. Результат  выдается  пользователю  с детальным объяснением причин

сходства.

При поиске похожих фигурантов и происшествий обеспечивается возможность пользователю изменять характер поиска с акцентом на информацию требуемого вида (приметы, адреса и др.) - путем изменения весовых коэффициентов, присваиваемых значимым элементам. Коэффициент ноль означает игнорирование информации соответствующего вида.

8. Выявление связей

1) Выявление связей одного объекта.

Выдаются каталоги, из которых пользователь должен выбрать интересующий его объект.

Для выбранного объекта строится граф связей - прямых и косвенных.

Прямые связи - связи с другими объектами в рамках одного происшествия. Например, для фигуранта - это адрес проживания, владение оружием и др. Это связи 1-го уровня.

Косвенные связи - это связь через другие объекты. Например, связанными считаются фигуранты, если они входят в происшествия, в которых встретился один и тот же телефон (или какой либо другой объект). Это связи 2-го уровня.

Для найденных объектов также может осуществляться поиск связей. Это связи 3-го и более высоких уровней.

Система последовательно строит граф связей, где вершины - это объекты, а дуги - связи между объектами. При этом вначале строится граф связей 1-го уровня. Пользователь может сказать системе "Перейти на поиск связей 2-го уровня" и т.д. Система решает задачу поиска связей любой глубины. Для каждого объекта на графе пользователь может посмотреть, в какие документы он входит, посмотреть текст документа, удалить объект или же искать только его связи.

2) Выявление связей между двумя объектами.

Два раза выдаются каталоги, из которых пользователь должен выбрать два интересующих его объекта. Система ищет связи 1-го уровня между этими объектами. Если их нет, то она спрашивает, перейти ли на поиск связей 2-го уровня (косвенных связей) и т.д.

3) Выявление связей объектов, входящих в документ.

Выдается каталог происшествий (документов), из которых пользователь должен одно из них. Из выбранного происшествия система выделяет все объекты и для каждого ищет связи 1-го уровня. В результате строится граф прямых связей всех выделенных объектов. Далее можно заставить систему "Перейти на поиск связей 2-го уровня" и т.д.

9. Упорядочение по степени криминальной активности

Задача упорядочения фигурантов (или любого другого объекта - адреса, автомашины и др.) по степени криминальной активности относится к классу аналитических.

Вначале система последовательно выбирает из БД введенные документы (их содержательные портреты), выделяет имеющихся в них фигурантов. Для каждого из них осуществляется поиск наиболее похожих. Если таковые имеются, то это говорит о повышенной криминальной активности фигуранта. Учитывается количество похожих и степень криминальности происшествий с ними.

Далее выделяются связанные с фигурантом объекты (адреса, оружие и др.). Для них производится поиск похожих и по результату определяется их криминальная активность. Это также учитывается при оценке веса, отражающего степень криминальности.

Фигуранты ранжируются по весам и выдаются в виде меню. В нем фигуранты с наиболее высокой степенью криминальности будут первыми. При выборе фигуранта система покажет все его связи и будет понятно, почему ему присвоен такой вес.

10. Отличительные особенности

Система "Криминал" разрабатывалась как открытая логико-аналитическая система, допускающая расширение ее функциональных возможностей. В ней предусмотрена возможность быстрой разработки и подключения новых задач. Для быстрого создания алгоритмов аналитической обработки используется инструментальная среда ДЕКЛ, основанная на продукционных принципах и ориентированная на обработку структур знаний, представленных в виде семантических сетей [5,11].

При разработке системы "Криминал" были решены следующие вопросы, значительно повышающие ее качественный уровень по сравнению с уже существующими системами, основанными на БД:

- использование для нормализации слов в тексте быстрого алгоритма морфологического анализа, основанного на предварительном выявлении обобщенных таблиц окончаний;

- использование контекстных методов синтактико-семантического анализа текста для автоматического выделения фигурантов и относящейся к ним информации;

- выявление содержательных портретов документов, представляющих значимую информацию и связи, хранение этих портретов в базе знаний и их использование для интеллектуальной обработки;

- использование прямых и кольцевых ссылок в базе знаний для быст­рого поиска по связям;

- использование индексных файлов и инверсных списков, обеспечивающих хранение базы знаний на диске и быстрый поиск в ней содержательных портретов документов;

- использование гибких методов поиска похожих фигурантов и происшествий, учитывающих значимость элементов текста для подсчета весовых коэффициентов, отражающих степень сходства;

- возможность настройки вышеупомянутых методов на тип документа путем изменения коэффициентов значимости элементов в зависимости от их связей, принадлежности к определенному виду (к приметам, адресам, оружию и др.);

- поддержка объяснительной компоненты при поиске и идентификации;

- простой и наглядный интерфейс, соответствие принятым в структурах МВД технологии проведения работ и формам стандартизованных документов.

Многие из перечисленных особенностей - это сложные, наукоемкие задачи, которые удалось решить за счет использования мощных инструментальных средств. Эти особенности ставят систему "Криминал" на качественно новый уровень по сравнению со многими информационными системами, которые предлагаются для использования в криминальной милиции.