Главная Страница >

    1. Общая схема систем, основанных на знаниях

 

На схеме представлена система с единой базой предметных и лингвистических знаний. Система использует лингвистический процессор для автоматического преобразования текстов естественного языка (ЕЯ) в структуры предметных знаний (ПЗ).   

 

 

                                      

         С помощью лингвистического процессора (ЛП) накапливаются предметные знания (ПЗ), которые определяют ответы системы на вопросы пользователей. Сам лингвистический процессор настраивается на работу с текстами входных документов с помощью лингвистических знаний (ЛЗ). Так как преобразование текстов и их обработка имеют много общих задач, то используется единый инструментарий для представления  и обработки предметных и лингвистических знаний – язык расширенных семантических сетей (РСС) и инструментальная среда DECL. В результате формируется база предметных и лингвистических знаний (БЗ).

            Более того лингвистический процессор используется для поддержания  режима ответа на запросы, выраженные на естественном языке (ЕЯ). Запросы представляются в виде РСС и поиск ответа идет на уровне обработки структур знаний.

            Требования к языку представления знаний:

-          простота, аддитивность (отсутствие синтаксической загруженности, наличие простых способов дополнения, корректировки);

-          высокие изобразительные возможности (достаточные  для отображения семантической информации текстов ЕЯ);

-          однозначность (один и тот же факт, выраженный различными способами, по возможности, должен быть представлен с помощью одной той же структуры знаний).

          Эти требования следуют из необходимости автоматической обработки  структур знаний, находящихся в компьютере. Если в качестве знаний использовать синтаксически сложные конструкции, то блок обработки должен будет постоянно разбирать эти конструкции, что является достаточно трудоемким  процессом. Поэтому, чем проще устроены системные знания, тем легче с ними работать, т.е. проще будут соответствующие программы.

       Перечисленным требованиям  удовлетворяют расширенные семантические сети (РСС). В их основе лежит модель внешнего мира, который квантуется на объекты и отношения между ними (действия также считаются отношениями, связывающими объекты).  При этом допускается интеграция объектов – построение из простых объектов более сложных. Обратный процесс – детализация. Из каждого объекта можно выделить его части, связанные определенными отношениями.

 

      2. Содержательные портреты документов

Знания (предметные и лингвистические) в базе знаний (БЗ) представляются в виде структур, которые записываются в нотации расширенных семантических сетей - РСС.

 

Напомним, что в простейшем случае фрагмент имеет вид N-местного предиката. Например, ОВД_(МООРОШЕВО,МНЕВНИКИ) - это фрагмент, представляющий отделение милиции. В тоже время фрагмент - это более сложная конструкция, которая далеко выходит за рамки типовых предикатов логики 1-го и 2-го порядков.

Во-первых, в фрагментах широко используются внутрисистемные коды - это числа, к которым добавляется знак плюс (+), когда вводится новый код, или знак минус (-), когда используется уже введенный код. Например, "1+" и "1-" - есть обозначение одного и того же объекта (или отношения), а "2+" и "2-" - уже другого, и т.д. Такие числа служат для обозначения неименованных объектов, например, порождаемых самой системой. Например, в фрагментах

SUB(ЧЕЛОВЕК,1+) ИМЯ(ИВАН,1-)

код 1+ и 1- представляют одного и того же человека по имени Иван.

 

Во-вторых, вводится специальный код фрагмента, соответствующий всей представленной в фрагменте информации. Например, в фрагменте АДР_(УЛ.ЛАГОЛЕВА,25,1,273/6+) код 6+ представляет весь адрес. Эти коды могут стоять на аргументных местах других фрагментов. Например, фрагменты

FIO(ФИРСОВЛАДИМИР,НИКОЛАЕВИЧ,1953/5+)

АДР_(УЛ.ЛАГОЛЕВА,25,1,273/6+) ПРОЖ.(5-,6-)

представляют, что фигурант Фирсов Владимир Николаевич (ему сопоставлен код 5+, 5-) проживает (ПРОЖ.) по указанному адресу, которому сопоставлен код 6+, 6-.

Коды фрагментов необходимы для представления комплексной информации и различных видов связей. Их наличие делает возможным представление типовых парадоксов ЛЖЕЦА, КРОКОДИЛА и др., что выходит за рамки возможностей типовых логик, но присуще человеческим рассуждениям [1].

Сеть (РСС), представляющая объекты и связи какого-либо документа, образует так называемый содержательный портрет этого документа. Такие портреты необходимы для обеспечения быстрого и качественного поиска информации по значимым компонентам и связям. Приведем пример. Типовой документ (с номером 221) из сводок происшествий:

1.05.98г. в 7.10 Фирсова Владимира Николаевича 1953г.р прож.уллаголева 25-1-273, работает АОЗТ "ХДУ", зам. директора, о том, что 1-05-98г. неизвестные от д.22 кор.3 по ул.Тухачевского, похитили а/м ГАЗ 31029, черная, 1995 г/в, дв.402-0019476, кузов 0285927...

Его содержательный портрет имеет вид:

ДОК_(221,'TEXT_98.TXT','S_CRI.NL') ДАТА_(#1.5.1998,1998,МАЙ,~1,7.1/4+)  4-(221,ДАТА_) FIO(ФИРСОВЛАДИМИР,НИКОЛАЕВИЧ,1953/5+)  5-(221,FIO) АДР_(УЛ.,ГЛАГОЛЕВА,25,1,273/6+)  6-(221,АДР_)

ПРОЖ.(5-,6-/7+)

ОРГ_(АОЗТ,ХДУ/8+)  8-(221,ОРГ_)

РАБ_(5-,8-,ЗАМ.ИРЕКТОР/9+)

FIO(" "," "," ",НЕСКОЛЬКО/10+)  10-(221,FIO)

НЕИЗВЕСТНЫЙ(10-) АВТО_(АВТОМАШИНААЗ,31029,ЧЕРНЫЙ,1995,Г\В,ДВ.,402,19476, КУЗОВ,285927,УЧЕТ/11+)  11-(221,АВТО_)

УГНАТЬ(10-,11-/12+)

ДАТА_(#1.5.1998,1998,МАЙ,~1/14+)  4-(221,ДАТА_)

КОГДА(12-,14-)

АДР_(УЛ.УХАЧЕВСКИЙ,ДОМ,22,КОРП.,3/15+) 15-(221,АДР_) ГДЕ(12-,15-)

ПРЕДЛ_(221,4-,5-,6-,8-,9-,ООМ,12-,14-,15-)

Первый фрагмент ДОК_(221,'TEXT_98.TXT','S_CRI.NL') указывает, что содержательный портрет построен на основе документа 221 из файла 'TEXT_98.TXT'. При этом были использованы лингвистические знания 'S_CRI.NL'. Второй фрагмент представляет дату. Добавка 4-(221,ДАТА_) указывает на принадлежность даты к документу 221. Такие фрагменты необходимы для быстрого поиска нужных фрагментов, когда в оперативной памяти (БЗ) находится множество содержательных портретов. Последний фрагмент ПРЕДЛ_(221,...) содержит коды других фрагментов и представляет порядок расположения соответствующей информации в тексте документа.

Такие сети представляют достаточно высокий уровень формализации текстов и удобны для обработки - с помощью инструментальных средств ДЕКЛ.