Главная Страница > Публикации

        Методы обработки сводок с выявлением особенностей

                   фигурантов и происшествий

                

               Кузнецов Игорь Петрович (ИПИ РАН,  г. Москва)

 

                                         Аннотация

                       

     Рассматривается класс систем,  ориентированных  на  обработку сводок для задач правоохранительных органов. Учитывается тот факт, что  сводки - это тексты естественного языка, где имеют место многочисленные сокращения, различные способы выражения одного и  того же.  Система должна иметь средства анализа для устранения неоднозначностей на различных уровнях, для восстановления недостающей информации, ее дополнения существенными характеристиками, для  варьирования терминами при поиске похожих происшествий и фигурантов.

     В статье описывается подход к построению такого сорта систем, который  заключается  в использовании лингвистического процессора, обеспечивающего лексический и морфологический анализ с построением простейшей семантической сети. Вся последующая обработка переносится на уровень таких сетей и осуществляется на базе логико-аналитических средств и методов.  Рассматривается  вид  таких  сетей  для представления  содержательных портретов документов, а также терминологического словаря, их использование для выявления особенностей происшествий и фигурантов, для расширения пространства поиска.

               

                                                         

     Введение

    

     При построении систем, ориентированных на работников правоохранительных органов, возникает задача обработки текстовых документов:  описаний  происшествий, телефонных книжек, словесных портретов. Как правило, такие документы объединяются в сводки. Требуется анализировать эти сводки и использовать для различных целей, прежде  всего, для поиска похожих происшествий, фигурантов. Здесь возникают проблемы, вызванными следующими факторами.

     Во-первых, сводки - это тексты естественного языка, где имеют место многочисленные  сокращения  (ГР-КА,  РАБИЛ...),  различные способы выражения одного и того же. Каждое слово может присутствовать в виде различных словоформ. Поэтому обработка должна включать морфологический  анализ  с  дополнительными средствами расшифровки сокращений.

     Во-вторых, в словесных портретах фигурантов, а также при описании характера происшествий существенными являются термины,  словосочетания типа СИНЯЯ КЛЕТЧАТАЯ КУРТКА, РАЗБОЙНОЕ НАПАДЕНИЕ и др. Один  и  тот же признак или факт может быть выражен с помощью различных  терминов  и форм. Поэтому обработка сводок должна включать элементы синтактико-семантического анализа. Более того, с  помощью такого  анализа  требуется  также  уточнять  значения  слов. Важно знать, что определяют слова типа ШИРОКИЙ, БОЛЬШОЙ,  КРУПНЫЙ,...  - это  форма  лба, носа, тела или другой части тела. Просто поиск по таким словам неэффективен.

     В-третьих, нужно учитывать, что люди по-разному называют одно и тоже. При поиске похожих фигурантов или происшествий требуется варьировать терминами а рамках  их  семантических  пространств. Система должна знать, к примеру, что СВЕТЛЫЕ ВОЛОСЫ это могут быть РЫЖИЕ  ВОЛОСЫ или БЛОНДИН и т.д. При этом требуются элементы логического вывода. Например, по росту 190-195 см. система должна  понимать, что человек ВЫСОГО РОСТА.

     И  наконец,  в-четвертых, важную роль при поиске фигурантов и происшествий играют, так называемые, качественные или  содержательные  признаки,  например,  отражающие способ проникновения, способ совершения преступления и др. Такие признаки могут в явном виде не присутствовать в текстах. Их нужно восстанавливать, используя  соответствующие классификаторы криминальной милиции. К ним пользователи  привыкли.  Поэтому и объяснение результатов, по возможности, система должна выдавать в терминах этих классификаторов.

     В данной статье рассматривается подход к решению  перечисленных  проблем,  который  нашел свое воплощение в реально работающей системе "Криминал". Подход заключается в использовании блоков лексического и морфологического анализа, которые делят текст на части (выделяют слова, предложения), приводит слова в каноническую форму и строят на этой основе простейшую семантическую сеть. Вся  последующая обработка переносится на уровень таких сетей - они называются РСС. Знания о словах и терминологические словари представляются в виде РСС.

     Для обработки используется специальное инструментальное средство  - язык ДЕКЛ [1,2,3], основой которого являются РСС и продукции: наборы правил ЕСЛИ... ТО... В правилах  допускаются  переменные,  сняты  многие  ограничения  на левую и правую части. Правила достаточно независимы, их можно легко менять, что обеспечивает высокую эффективность и гибкость. Такой подход позволяет включать  в обработку  сложные  логико-аналитические  механизмы.  Некоторые из них, относящиеся к обработке  языка,  будут  описаны  в  настоящей статье.

                      

     1. Семантико-ориентированный подход

    

     Семантико-ориентированный подход основывается  на  модели, в которой базовыми являются понятия:

     -  значимые объекты (это могут быть лица или "фигуранты", машины, оружие, города,  организации  и  любые  другие  интересующие пользователя объекты);

     -  значимые связи или факты (рассматриваются в достаточно широком смысле, т.е. это могут быть приметы, свойства, события, происшествия и вся другая информация, относящаяся к  значимым  объектам).

   

     Задачи лингвистического процессора:

     - деление текста на части (лексический анализ):

     - преобразование слов в каноническую  форму  (морфологический анализ);

     -  выделение из документа значимых объектов и связей с преобразованием в семантическую сеть, называемую содержательным портретом документа.

     Итак, задача лингвистического процессора - построение структуры,  удобной  для  последующей обработки. Система как бы старается быстро отвлечься от чисто языковых явлений, перенося обработку  на семантический уровень.

     Далее следует этап пост-лингвистической обработки: выявляется аналитическая  информация, характеризующая документ и его значимые объекты. Для этого используется терминологический словарь,  который тоже представлен в виде семантической сети.

     

     2. Содержательные портреты документов

    

     Содержательный  портрет - это семантическая сеть (РСС), которая представляет значимые объекты и их связи [4]. Последние -  это наборы сгруппированных признаков (слов в канонической форме).

     Признаки группируются с учетом  порядка  их  расположения,  а также следующих факторов:

     - какую  информацию  они  представляют  (приметы, адрес и др.);

     -  к какому значимому объекту относятся (лицу, машине, оружию и др.);

     - в каком месте встретились и сколь близко расположены.

     Отметим, что ориентация системы на определенные значимые объекты может легко меняться - за счет изменения в  терминологическом словаре соответствующих фрагментов, определяющих классы таких объектов.

    

     Рассмотрим  пример  содержательного портрета документа, когда система ориентирована на выделение фигурантов, их примет,  особенностей и совершаемых действий. Тогда  при  построении  содержательного портрета из документа извлекается информация следующего вида:

     - фигуранты, упоминавшиеся в документе (в том числе, неизвестные лица), каждому выявленному фигуранту присваивается свой код;

     - ФИО каждого фигуранта (ФИО);

     - приметы каждого фигуранта (ПРИМ_);

     - национальность;

     - адрес каждого фигуранта, где родился, прописан, где проживает (АДР_);

     - место работы, должность каждого фигуранта;

     - номера телефонов фигурантов;

     - место и время происшествия;

     - по какой статье проходит происшествие;

     - марка и номер машины, ее особенности;

     - тип оружия, его номерной знак и другие особенности;

     - соотнесенность к предложению (ПРЕДЛ_).

                                           

     Содержательный портрет состоит из фрагментов. Это понятие шире, чем известное в логике понятие предикат. Каждый фрагмент может иметь свой код, который может стоять на аргументых  местах  других фрагментов.

 

     Пример 1.

       

     Рассмотрим содержательный портрет одного из документов:

 

    УБИЙСТВО                          Восточное ОУВД

                                      ОВД мо "Сокольники"

  ....  обнаружен труп неизвестного мужчины с тремя огнестрельными

  ранениями в ногу, живот и область сердца. Давность трупа около 4

  часов. Труп направлен в 11 морг. Его приметы: на вид 27-35  лет,

  рост  175-180  см.  плотного телосложения, волосы черные средней

  длины. Одет: пальто серое, коричневый  пиджак,  черная  рубашка,

  синие брюки с манжетами....

        

     Содержательный портрет этого документа имеет следующий вид:

    

  ДОК_(24,TEXT,1)

  FIO(0+,??,??,??,1)

  ЗАГЛ_(24,УБИЙСТВО/1+)

  ОУВД(24,ВОСТОЧНЫЙ/2+)

  ПРИМ_(0-,ВОЗР.,27,35,РОСТ,175,180,КРЕПКИЙ,

  ТЕЛОСЛОЖЕНИЕОЛОС,"темные волосы",СРЕДНИЙ,ДЛИНА,ПАЛЬТО,СЕРЫЙ,

  КОРИЧНЕВЫЙИДЖАК,ЧЕРНЫЙ,РУБАШКА,СИНИЙ,БРЮКИ,МАНЖЕТА/3+)

  ОРГАН_(24,ОВД_МООКОЛЬНИКИ/4+)

  ПРЕДЛ_(24,1-,2-,4-,ОБНАРУЖЕНИЕРУП,0-,МУЖЧИНА,ТРЕМЯ,

  ОГНЕСТРЕЛЬНЫЙАНЕНИЕ,НОГА,ЖИВОТ,ОБЛ.,СЕРДЦЕ,ДАВНОСТЬ,ТРУП,

  ОКОЛО,4,ЧАСРУП,НАПРАВИТЬ,11,МОРГ,3-,)

 

     Во фрагменте ЗАГЛ_(24,УБИЙСТВО/1+), представляющем заголовок, знак 1+ обозначает его код (код вводится через знак плюс). Знак 1- это тот же самый код, но повторно используемый.  С  помощью  таких кодов  указывается место расположения в предложении соответствующей информации, представленной во фрагменте. Сказанное справедливо для

знаков 2+, 2- и др.

   

     Фрагмент ДОК_(24,'1-96',TXT) указывает  на  порядковый  номер документа  (это  номер  24  по  времени  поступления)  и имя файла 1-96.TXT, содержащего сводку с данным документом.

     Фрагмент  FIO(0+,??,??,??,1)  представляет неизвестное лицо - без ФИО. Если бы ФИО было известно, то на местах ?? стояли бы фамилия-имя-отчество. Знак 0+ есть код фигуранта. С помощью  знака  0-  указывается приметы (ПРИМ_) этого фигуранта и место, где он встретился  в предложении, см. фрагмент ПРЕДЛ_. Аналогичным образом может быть указан его адрес, номер телефона и др.

    

     Каждый признак (слово или словосочетание) соотносится к одному из перечисленных ранее видов. Если такое соотнесение  невозможно, то признак соотносится к предложению с указанием его месторасположения.

     Признаки  сгруппированы по видам, образуя, к примеру, приметы фигуранта (ПРИМ_), его адрес (АДР_), номер телефона (ТЕЛ_), или же указывая на соотнесенность к определенному предложению (ПРЕДЛ_) документа. В каждом фрагменте на первом месте стоит или код фигуранта 0- (если признаки соотнесены к нему) или номер документа 24.

    

     Методы  построения  содержательных портретов описаны в статье [4], представленной на данную конференцию.

    

     3. Семантические фильтры

       

     Под семантическими фильтрами будем понимать средства анализа, которые (за счет использования терминологического словаря) обеспечивают: автоматическое выявление из текстов особенностей  фигурантов,  уточняют его словесный портрет, обеспечивают формирование по классификатору особенностей происшествия. Семантический  фильтр  - это обобщенная форма (наподобие фрейма), в которой имеются уточняемые компоненты.

     Важным элементом семантических фильтров являются родо-видовые деревья  (называемые  SUB-деревьями),  а также компоненты, задающие семантические пространства терминов. SUB-деревья состоят из  классов,   подклассов   и   значимых  объектов,  связанных  отношением "род-вид" (в ряде случаев в рамках SUB-дерева удобно  представлять связь типа "часть-целое"). Такое SUB-дерево включает в себя основные разделы классификатора: преступные действия, оружие, должностные лица, характер связи и др.

     Каждый такой раздел расшифровывается. Например:

  

 ОРУЖИЕ:

    - КАСТЕТ,

    - ПИСТОЛЕТ,

       - ВАЛЬТЕР,

       - ПИСТОЛЕТ ПМ,....

    - РУЖЬЕ, ВИНТОВКА:

       - КАРАБИН,

       - МЕЛКОКАЛИБЕРНАЯ ВИНТОВКА,...

    - ГРАНАТОМЕТ и др.

 ОСОБЫЕ ПРИМЕТЫ

    - БОРОДА,

    - УСЫ и др.

    

     Значимые  глаголы (а также другие языковые средства, выражающие интересующие пользователя оценки или явления) делятся на группы или семантические пространства, в каждый из которых  помещаются глаголы с похожими действиями или одинаковыми результатами.

     Например,  УБИЙСТВО,  УБИТЬ,  ЗАСТРЕЛИТЬ, ЗАРЕЗАТЬ, ЗАДУШИТЬ, ЗАКОЛОТЬ, РАСЧЛЕНИТЬ - у всех этих действий одинаковый  результат. Они образуют группу с основным словом <убийство>.

     На этой основе строятся семантические фильтры. Типичный  пример семантического фильтра:

  

     <убийство> <оружие, инструмент>.

 

В  нем компоненты, стоящие в скобках, заполняются конкретным материалом текста в соответствии с SUB-деревом или семантическим пространством. В результате вычленяется конкретный, интересующий пользователя материал.

     Фильтр срабатывает при наличии уточняющего материала, который выявляется в процессе конкретизации. Такой процесс  заключается  в переборе многих вариантов, где допускаются перестановки слов текста,  возможность их нахождения на определенном расстоянии (обычно, не более, чем через 2-3 слова). При этом знаки препинания, служебные слова и предлоги (если они специально не заданы в фильтре)  не учитываются. В результате охватываются различные способы выражения одного  и  того  же  смысла - с помощью различных форм и средств:

УБИТ ИЗ ПИСТОЛЕТА, ЗАРЕЗАН НОЖОМ, ЗАКОЛОТЬ НОЖОМ и др. Вместо слов ЗАРЕЗАН, НОЖ могут стоять любые другие слова, допустимые в  семантическом фильтре.

                                          

     Отметим  некоторые наиболее важные моменты, связанные с построением семантических фильтров.

     Во-первых, в ряде случаев элементы SUB-дерева можно пополнять автоматически,  пользуясь  контекстом. Например: автомашина <...>, город <...>, село <...> и др. Любое слово, стоящее на месте многоточия и начинающиеся с большой буквы, может быть автоматически отнесено к соответствующему классу.

     Во-вторых, объекты, выражаемые многосложными  формами,  можно вводить  через  специальные  семантические  фильтры - определения. Например, фильтры

 

     <особые приметы>::=<цвет> <особые приметы>

     <одежда>::=<цвет> <одежда>

     <одежда>::=<материал> <одежда>

    

позволяют  распознавать  словосочетания  типа  РЫЖАЯ БОРОДА, СИНИЕ ДЖИНСЫ, КОЖАНАЯ КУРТКА,... и относить их к особым приметам  (одежде).

                                        

     4. Терминологический словарь

       

     Терминологический словарь обеспечивает представление  типовых классификаторов, служащих для различения особенностей происшествий и  фигурантов.  Он содержит ключевые понятия (классы), связи между ними, представленные в нотации семантических сетей - РСС.

     Терминологический словарь служит,  во-первых,  для  выявления особенностей документа и его значимых объектов (при  использовании в семантических фильтрах), и во-вторых, для расширения пространства  поиска  и формирования объяснительной компоненты.

     

     Терминологический словарь содержит следующие виды связей:

     -  род-вид,  класс-подкласс (для представления таких связей в семантической сети используются фрагменты типа SUB);

     - безусловные синонимы (используются фрагменты SYNON);

     - условные синонимы, т.е. слова совпадают по смыслу при определенном контексте (фрагменты SYNON);

     - антонимы, т.е.противоположные по смыслу (фрагменты OR_OR);

     - взаимоисключающие (фрагменты OR_OR);

     - близкие по смыслу, т.е. из одного вытекает другое (фрагменты NEAR);

     - представляющие семантические фильтры (используются фрагменты WORD);

     - образующие словосочетания (фрагменты WORD).

   

     Рассмотрим фрагмент терминологического словаря на примере.

    

     Пример 2.

 

     SUB(ГЛАЗАЛЕПОЙ)

  SYNON(СЛЕПОЙСЛЕПНУТЬ,СЛЕПНУТЬ,ПОДСЛЕПОВАТЫЙ)

     SUB(ГЛАЗА,"глаза нормальные")

  SYNON("глаза нормальные"ОРМАЛЬНЫЙ,ОБЫЧНЫЙ/1+) 1-(ГЛАЗА)

     SUB(ГЛАЗА,"плохо видит")

  WORD("плохо видит"ЛОХОЙ,ВИДЕТЬ)

  OR_OR("глаза нормальные"ЛЕПОЙ,КОСОГЛАЗЫЙ,"плохо видит")

  NEAR(СЛЕПОЙ,"плохо видит")

                              

  WORD("Особые приметы"ВЕТ,"Особые приметы")

            SUB(ЦВЕТЕРНЫЙ) NEAR(ЧЕРНЫЙ,ТЕМНЫЙ)

            SUB(ЦВЕТЕМНЫЙ)

            SUB(ЦВЕТЕРЫЙ)

     SUB("Особые приметы"АСКА)

     SUB("Особые приметы"АКЕНБАРД)

     SUB("Особые приметы"ОРОДА)

                 

     Рассмотрим,  что значат фрагменты примера 2 и как они используются.

   

     SYNON(СЛЕПОЙСЛЕПНУТЬ,СЛЕПНУТЬ,ПОДСЛЕПОВАТЫЙ)   -  означает,

что слова-признаки являются синонимами. Система  использует  такие фрагменты,  чтоб приводить слова-признаки в содержательных портретах входных документах к одному виду. Имеется в виду слово,  которое стоит во фрагменте на первом месте. Фактически, таким способом устраняется недостатки блока морфологического анализа.

 

     Фрагмент:

     SYNON("глаза нормальные"ОРМАЛЬНЫЙ,ОБЫЧНЫЙ/1+)  1-(ГЛАЗА)  - это  условный  синоним.  За  счет этого фрагмента в содержательном портрете документа слово НОРМАЛЬНЫЙ или ОБЫЧНЫЙ  будет  заменено  на признак  "глаза  нормальные"  только, если рядом (в пределах 2-3-х позиций) стоит слово ГЛАЗА. Условные синонимы необходимы, так  как слова  типа НОРМАЛЬНЫЙ, ОБЫЧНЫЙ,... могут относиться к чему угодно.

     Фрагмент типа NEAR(...) указывает на близость признаков и используется для расширения пространства поиска, а также при выявлении аналитических признаков. Система вместо  слов  текста  пробует подставлять близкие слова и пробует таким способом искать адекватные документы или выявлять конкретные данные и факты.

     Фрагменты  типа  OR_OR(...)  означают или то, или другое, или третье. Они используются в различных видах аналитической обработки для выявления несоответствий, противоречий.

    Фрагмент  SUB(ГЛАЗАЛЕПОЙ) представляет отношение РОД-ВИД. Он означает, что глаза могут быть слепыми. Такие фрагменты служат для соотнесения  информации  к  определенному  классу.  Они   образуют SUB-дерево, представляющее ветви классификатора.

    Фрагменты  типа  WORD("плохо  видит"ЛОХОЙ,ВИДЕТЬ) служат для выявления словосочетаний с  пополнением  содержательного  портрета соответствующими значимыми характеристиками. Признак "плохо видит" будет сформирован при наличии рядом стоящих слов - ПЛОХОЙ, ВИДЕТЬ. Они  могут  стоять  в любом порядке на расстоянии в пределах 2-3-х позиций, что позволяет учесть разнообразные языковые формы с этими словами. Причем, вместо слов-признаков могут стоять их видовые понятия, т.е. пояснения (через SUB), если таковые имеются. Таким образом, фрагменты типа WORD(...) - это обобщенные формы,  допускающие различные вариации слов, представленных в SUB-дереве.

   

    Концепция семантических фильтров реализуется с  помощью  фрагмента  вида WORD("Особые приметы"ВЕТ,"Особые приметы"), где ЦВЕТ и "Особые приметы" имеют пояснения. Признак "Особые приметы" будет сформирован при наличии рядом стоящих слов, относящихся к  классам ЦВЕТ  и "Особые приметы". Такие слова могут стоять в любом порядке на расстоянии в пределах 2-3-х позиций, что позволяет учесть  разнообразные языковые формы с различными словами.

    За  счет  последнего  фрагмента  и ветвей SUB-дерева примера 2 словосочетания типа ЧЕРНАЯ МАСКА, РЫЖАЯ БОРОДА также будут отнесены к классу "Особые приметы".

    

     Отметим  два  важных  момента.  Во-первых,   фрагменты   типа SUB(...), OR_OR(...) и NEAR(...) играют важную роль для расширения пространства  поиска. На базе имеющихся слов-признаков запроса порождаются так называемые вторичные признаки:

     - близкие по смыслу термины (на основе фрагментов NEAR);

     - поясняющие термины (на основе фрагментов SUB);

     - наличия  противоречивых  признаков  (на  основе  фрагментов OR_OR). В результате в поиск вовлекается значительно большее число признаков.

   

    Во-вторых,  фрагменты  типа  SUB(...)  и  WORD(...) фактически представляют собой обобщенные знания, которые  позволяют  выявлять качественные характеристики в соответствии с родо-видовым деревом. В настоящее время подобные знания строятся человеком. В перспективе  фрагменты типа WORD(...) предполагается строить но основе обучающей выборки.

   

     5. Аналитические фрагменты

       

     Аналитические фрагменты представляют значимые признаки, которые выявляются из текста описания и которые характеризуют описываемое  происшествие или фигуранта. Для выявления используются классификаторы, заданные в терминологическом словаре, а также семантические фильтры.

     Пример основных классов терминологического словаря,  характеризующих криминальные происшествия: предварительные действия, способ проникновения, способ совершения преступления, преступные действия, предлог, организация, оружие, транспортные средства, ценные бумаги, драгоценные изделия, ценные изделия.

     Пример основных классов терминологического словаря,  характеризующих  фигурантов  (лиц):  пол,  особые приметы, индивидуальные особенности, телосложение, тип лица, волосы,  глаза,  лоб,  брови, нос, рот, губы, зубы, подбородок, уши, одежда.

                       

     Пример 3.

                                        

     На основе терминологического словаря блок  пост-лингвистической обработки сформирует следующие аналитические фрагменты, дополняющие содержательный портрет примера 1:

                                        

  FIG_(0-,ПОЛУЖЧИНА,ВОЗРАСТ,27,35,РОСТ,175,180,ТЕЛОСЛОЖЕНИЕ,

  КРЕПКИЙОЛОС,"темные волосы",ОДЕЖДА,ПАЛЬТО,СЕРЫЙ,РУБАШКА,

  ЧЕРНЫЙРЮКИ,СИНИЙ,ПИДЖАК,КОРИЧНЕВЫЙ,СТАТУС,ПОТЕРПЕВШИЙ,ТРУП)

 

  ANAL_(24,"Преступные действия"АНЕНИЕ,ОГНЕСТРЕЛЬНЫЙ,ЛИЧНОСТЬ,

  "Лицо кавказской национальности")

                                            

     Первый  фрагмент  (FIG_) представляет особенности фигуранта с кодом 0-, а второй (ANAL_) - происшествия из документа 24.

    

     Отметим, во-первых, в каждом аналитическом фрагменте признаки расположены в строгой последовательности: за каждым основным классом (ВОЗРАСТ, ТЕЛОСЛОЖЕНИЕ, ВОЛОС, ОДЕЖДА, СТАТУС) идут  подклассы (если  они  есть)  и  далее - признаки, поясняющие наличие данного класса или подкласса. Например, слово ТРУП поясняет, почему  присвоен статус - ПОТЕРПЕВШИЙ.

    Во-вторых, упомянутые признаки могут присутствовать  в  документе  в неявном виде. Например, словосочетание ЧЕРНЫЕ ВОЛОСЫ система привела к "темные волосы". Таким способом признаки обобщаются и унифицируются, чтоб легче их было сравнивать.

    Другой пример. Признак "Драгоценные изделия" может быть порожден по словам ЗОЛОТО и КОЛЬЦО. При этом слов ДРАГОЦЕННЫЙ и ИЗДЕЛИЯ может не быть в тексте.

    

     Аналитические фрагменты и представленные в них признаки играют важную роль в задачах поиска, объяснения и реферирования  документов. Рассмотрим этот вопрос на отдельных задачах.

                    

     Поиск  похожих  документов  (происшествий)  осуществляется по запросам и заключается в анализе содержательных портретов документов на предмет их совпадения с содержательным  портретом  запроса. Аналитические признаки используются для быстрого отбора документов, соответствующих  запросу.  Далее  осуществляется  детальная оценка этих документов с подсчетом весов близости. Такой вес равен  взвешенной  сумме  совпавших  слов-признаков. При этом учитываются как первичные признаки (значимые слова запроса в  каноническом  виде), так  и  порожденные  -  аналитические,  которые в общую сумму дают больший вес.

     Аналогичную роль аналитические фрагменты играют и при  поиске похожих  фигурантов. Тогда для отбора документов используются наиболее значимые характеристики словесного портрета,  представленные во  фрагментах.  Далее  делается  подсчет весов близости - по всем

признакам.     

     Аналитические  фрагменты позволяют давать оценку документа по ключевым позициям, представляющими в сжатом виде наиболее значимую информацию. Такая оценка может играть роль реферата. Более того, с помощью аналитических фрагментов становится возможным при поиске и объяснении использовать привычные человеку классификаторы, что делает результат более понятным.

           

     Заключение

    

     Будущее логико-аналитических систем в области  криминалистики в  возможности  учитывать  как  можно большее количество факторов. Среди них важное место  занимают  качественные  или  содержательные признаки, например, отражающие способ проникновения, способ совершения преступления и др. Большую роль также играют различные признаки: адреса, приметы, место, характер преступления и др. Соответствующие  алгоритмы разработаны и реализованы в рамках логико-аналитической системы "Криминал".

           

     Литература:

    

     1. Кузнецов И.П. Пузанов В.В., Шарнин М.М. Система обработки декларативных структур знаний ДЕКЛАР-2. Москва, ИПИАН, 1988 г.

     2. Кузнецов И.П. Механизмы обработки  семантической  информации. М. "Наука", 1978. 175 с.

     3. Кузнецов И.П. Шарнин М.М. Интеллектуальный редактор знаний на основе расширенных семантических сетей. В сб. Системы и средства информатики. М. "Наука", 1993.

     4.  Кузнецов  В.П., Мацкевич А.Г. Автоматическое выявление из документов значимой информации с помощью шаблонов и контекста, См. труды наст. конференции.