1. Общая схема систем, основанных на знаниях

На схеме представлена система с единой базой предметных и лингвистических знаний. Система использует лингвистический процессор для автоматического преобразования текстов естественного языка (ЕЯ) в структуры предметных знаний (ПЗ).

С помощью лингвистического процессора (ЛП) накапливаются предметные знания (ПЗ), которые определяют ответы системы на вопросы пользователей. Сам лингвистический процессор настраивается на работу с текстами входных документов с помощью лингвистических знаний (ЛЗ). Так как преобразование текстов и их обработка имеют много общих задач, то используется единый инструментарий для представления и обработки предметных и лингвистических знаний – язык расширенных семантических сетей (РСС) и инструментальная среда DECL. В результате формируется база предметных и лингвистических знаний (БЗ).

Более того лингвистический процессор используется для поддержания режима ответа на запросы, выраженные на естественном языке (ЕЯ). Запросы представляются в виде РСС и поиск ответа идет на уровне обработки структур знаний.

Требования к языку представления знаний:

- простота, аддитивность (отсутствие синтаксической загруженности, наличие простых способов дополнения, корректировки);

- высокие изобразительные возможности (достаточные для отображения семантической информации текстов ЕЯ);

- однозначность (один и тот же факт, выраженный различными способами, по возможности, должен быть представлен с помощью одной той же структуры знаний).

Эти требования следуют из необходимости автоматической обработки структур знаний, находящихся в компьютере. Если в качестве знаний использовать синтаксически сложные конструкции, то блок обработки должен будет постоянно разбирать эти конструкции, что является достаточно трудоемким процессом. Поэтому, чем проще устроены системные знания, тем легче с ними работать, т.е. проще будут соответствующие программы.

Перечисленным требованиям удовлетворяют расширенные семантические сети (РСС). В их основе лежит модель внешнего мира, который квантуется на объекты и отношения между ними (действия также считаются отношениями, связывающими объекты). При этом допускается интеграция объектов – построение из простых объектов более сложных. Обратный процесс – детализация. Из каждого объекта можно выделить его части, связанные определенными отношениями.

2. Содержательные портреты документов

Знания (предметные и лингвистические) в базе знаний (БЗ) представляются в виде структур, которые записываются в нотации расширенных семантических сетей - РСС.

Напомним, что в простейшем случае фрагмент имеет вид N-местного предиката. Например, ОВД_(МО,ХОРОШЕВО,МНЕВНИКИ) - это фрагмент, представляющий отделение милиции. В тоже время фрагмент - это более сложная конструкция, которая далеко выходит за рамки типовых предикатов логики 1-го и 2-го порядков.

Во-первых, в фрагментах широко используются внутрисистемные коды - это числа, к которым добавляется знак плюс (+), когда вводится новый код, или знак минус (-), когда используется уже введенный код. Например, "1+" и "1-" - есть обозначение одного и того же объекта (или отношения), а "2+" и "2-" - уже другого, и т.д. Такие числа служат для обозначения неименованных объектов, например, порождаемых самой системой. Например, в фрагментах

SUB(ЧЕЛОВЕК,1+) ИМЯ(ИВАН,1-)

код 1+ и 1- представляют одного и того же человека по имени Иван.

Во-вторых, вводится специальный код фрагмента, соответствующий всей представленной в фрагменте информации. Например, в фрагменте АДР_(УЛ.,ГЛАГОЛЕВА,25,1,273/6+) код 6+ представляет весь адрес. Эти коды могут стоять на аргументных местах других фрагментов. Например, фрагменты

FIO(ФИРСОВ,ВЛАДИМИР,НИКОЛАЕВИЧ,1953/5+)

АДР_(УЛ.,ГЛАГОЛЕВА,25,1,273/6+) ПРОЖ.(5-,6-)

представляют, что фигурант Фирсов Владимир Николаевич (ему сопоставлен код 5+, 5-) проживает (ПРОЖ.) по указанному адресу, которому сопоставлен код 6+, 6-.

Коды фрагментов необходимы для представления комплексной информации и различных видов связей. Их наличие делает возможным представление типовых парадоксов ЛЖЕЦА, КРОКОДИЛА и др., что выходит за рамки возможностей типовых логик, но присуще человеческим рассуждениям [1].

Сеть (РСС), представляющая объекты и связи какого-либо документа, образует так называемый содержательный портрет этого документа. Такие портреты необходимы для обеспечения быстрого и качественного поиска информации по значимым компонентам и связям. Приведем пример. Типовой документ (с номером 221) из сводок происшествий:

1.05.98г. в 7.10 Фирсова Владимира Николаевича 1953г.р прож.ул.Глаголева 25-1-273, работает АОЗТ "ХДУ", зам. директора, о том, что 1-05-98г. неизвестные от д.22 кор.3 по ул.Тухачевского, похитили а/м ГАЗ 31029, черная, 1995 г/в, дв.402-0019476, кузов 0285927...

Его содержательный портрет имеет вид:

ДОК_(221,'TEXT_98.TXT','S_CRI.NL') ДАТА_(#1.5.1998,1998,МАЙ,~1,7.1/4+) 4-(221,ДАТА_) FIO(ФИРСОВ,ВЛАДИМИР,НИКОЛАЕВИЧ,1953/5+) 5-(221,FIO) АДР_(УЛ.,ГЛАГОЛЕВА,25,1,273/6+) 6-(221,АДР_)

ПРОЖ.(5-,6-/7+)

ОРГ_(АОЗТ,ХДУ/8+) 8-(221,ОРГ_)

РАБ_(5-,8-,ЗАМ.,ДИРЕКТОР/9+)

FIO(" "," "," ",НЕСКОЛЬКО/10+) 10-(221,FIO)

НЕИЗВЕСТНЫЙ(10-) АВТО_(АВТОМАШИНА,ГАЗ,31029,ЧЕРНЫЙ,1995,Г\В,ДВ.,402,19476, КУЗОВ,285927,УЧЕТ/11+) 11-(221,АВТО_)

УГНАТЬ(10-,11-/12+)

ДАТА_(#1.5.1998,1998,МАЙ,~1/14+) 4-(221,ДАТА_)

КОГДА(12-,14-)

АДР_(УЛ.,ТУХАЧЕВСКИЙ,ДОМ,22,КОРП.,3/15+) 15-(221,АДР_) ГДЕ(12-,15-)

ПРЕДЛ_(221,4-,5-,6-,8-,9-,О,ТОМ,12-,14-,15-)

Первый фрагмент ДОК_(221,'TEXT_98.TXT','S_CRI.NL') указывает, что содержательный портрет построен на основе документа 221 из файла 'TEXT_98.TXT'. При этом были использованы лингвистические знания 'S_CRI.NL'. Второй фрагмент представляет дату. Добавка 4-(221,ДАТА_) указывает на принадлежность даты к документу 221. Такие фрагменты необходимы для быстрого поиска нужных фрагментов, когда в оперативной памяти (БЗ) находится множество содержательных портретов. Последний фрагмент ПРЕДЛ_(221,...) содержит коды других фрагментов и представляет порядок расположения соответствующей информации в тексте документа.

Такие сети представляют достаточно высокий уровень формализации текстов и удобны для обработки - с помощью инструментальных средств ДЕКЛ.