Главная Страница > |
1. Общая схема систем, основанных на знаниях
На схеме представлена система с единой базой
предметных и лингвистических знаний. Система использует
лингвистический процессор для автоматического преобразования текстов
естественного языка (ЕЯ) в структуры предметных знаний (ПЗ).
С помощью лингвистического процессора (ЛП) накапливаются предметные
знания (ПЗ), которые определяют ответы системы на вопросы
пользователей. Сам лингвистический процессор настраивается на работу с текстами
входных документов с помощью лингвистических знаний (ЛЗ). Так как
преобразование текстов и их обработка имеют много общих задач, то используется
единый инструментарий для представления и
обработки предметных и лингвистических знаний – язык расширенных семантических
сетей (РСС) и инструментальная среда DECL. В результате
формируется база предметных и лингвистических знаний (БЗ).
Более того лингвистический процессор
используется для поддержания режима
ответа на запросы, выраженные на естественном языке (ЕЯ). Запросы
представляются в виде РСС и поиск ответа идет на
уровне обработки структур знаний.
Требования к языку
представления знаний:
-
простота, аддитивность (отсутствие
синтаксической загруженности, наличие простых способов дополнения,
корректировки);
-
высокие
изобразительные возможности (достаточные для отображения семантической информации
текстов ЕЯ);
-
однозначность (один и тот же факт, выраженный различными способами, по
возможности, должен быть представлен с помощью одной той же структуры знаний).
Эти требования следуют из
необходимости автоматической обработки
структур знаний, находящихся в компьютере. Если в качестве знаний
использовать синтаксически сложные конструкции, то блок обработки должен будет
постоянно разбирать эти конструкции, что является достаточно трудоемким процессом. Поэтому, чем проще устроены
системные знания, тем легче с ними работать, т.е. проще будут соответствующие программы.
Перечисленным требованиям удовлетворяют расширенные семантические сети
(РСС). В их основе лежит модель внешнего мира, который квантуется на
объекты и отношения между ними (действия также считаются отношениями,
связывающими объекты). При этом
допускается интеграция объектов – построение из простых объектов более
сложных. Обратный процесс – детализация. Из каждого объекта можно
выделить его части, связанные определенными отношениями.
2.
Содержательные портреты документов
Знания (предметные и
лингвистические) в базе знаний (БЗ) представляются в виде структур, которые
записываются в нотации расширенных семантических сетей - РСС.
Напомним, что в простейшем
случае фрагмент имеет вид N-местного предиката. Например, ОВД_(МО,ХОРОШЕВО,МНЕВНИКИ) - это фрагмент, представляющий отделение
милиции. В тоже время фрагмент - это более сложная конструкция, которая далеко
выходит за рамки типовых предикатов логики 1-го и 2-го порядков.
Во-первых, в
фрагментах широко используются внутрисистемные коды - это числа, к которым
добавляется знак плюс (+), когда вводится новый код, или знак минус (-), когда
используется уже введенный код. Например, "1+" и "1-" -
есть обозначение одного и того же объекта (или отношения), а "2+" и
"2-" - уже другого, и т.д. Такие числа служат для обозначения
неименованных объектов, например, порождаемых самой системой. Например, в фрагментах
SUB(ЧЕЛОВЕК,1+)
ИМЯ(ИВАН,1-)
код 1+ и 1- представляют одного и того же человека по имени
Иван.
Во-вторых, вводится специальный
код фрагмента, соответствующий всей представленной в
фрагменте информации. Например, в фрагменте АДР_(УЛ.,ГЛАГОЛЕВА,25,1,273/6+)
код 6+ представляет весь адрес. Эти коды могут стоять на аргументных
местах других фрагментов. Например, фрагменты
FIO(ФИРСОВ,ВЛАДИМИР,НИКОЛАЕВИЧ,1953/5+)
АДР_(УЛ.,ГЛАГОЛЕВА,25,1,273/6+) ПРОЖ.(5-,6-)
представляют, что фигурант Фирсов Владимир Николаевич
(ему сопоставлен код 5+, 5-) проживает (ПРОЖ.) по указанному адресу, которому
сопоставлен код 6+, 6-.
Коды фрагментов необходимы для
представления комплексной информации и различных видов связей. Их наличие
делает возможным представление типовых парадоксов ЛЖЕЦА, КРОКОДИЛА и др., что
выходит за рамки возможностей типовых логик, но присуще человеческим
рассуждениям [1].
Сеть (РСС), представляющая
объекты и связи какого-либо документа, образует так называемый содержательный
портрет этого документа. Такие портреты необходимы для обеспечения
быстрого и качественного поиска информации по значимым компонентам и связям.
Приведем пример. Типовой документ (с номером 221) из сводок происшествий:
1.05.98г. в 7.10 Фирсова
Владимира Николаевича 1953г.р прож.ул.Глаголева
25-1-273, работает АОЗТ "ХДУ", зам. директора, о том, что 1-05-98г.
неизвестные от д.22 кор.3 по ул.Тухачевского, похитили а/м ГАЗ 31029, черная,
1995 г/в, дв.402-0019476, кузов 0285927...
Его
содержательный портрет имеет вид:
ДОК_(221,'TEXT_98.TXT','S_CRI.NL')
ДАТА_(#1.5.1998,1998,МАЙ,~1,7.1/4+)
4-(221,ДАТА_) FIO(ФИРСОВ,ВЛАДИМИР,НИКОЛАЕВИЧ,1953/5+) 5-(221,FIO)
АДР_(УЛ.,ГЛАГОЛЕВА,25,1,273/6+)
6-(221,АДР_)
ПРОЖ.(5-,6-/7+)
ОРГ_(АОЗТ,ХДУ/8+) 8-(221,ОРГ_)
РАБ_(5-,8-,ЗАМ.,ДИРЕКТОР/9+)
FIO(" "," ","
",НЕСКОЛЬКО/10+) 10-(221,FIO)
НЕИЗВЕСТНЫЙ(10-) АВТО_(АВТОМАШИНА,ГАЗ,31029,ЧЕРНЫЙ,1995,Г\В,ДВ.,402,19476,
КУЗОВ,285927,УЧЕТ/11+) 11-(221,АВТО_)
УГНАТЬ(10-,11-/12+)
ДАТА_(#1.5.1998,1998,МАЙ,~1/14+) 4-(221,ДАТА_)
КОГДА(12-,14-)
АДР_(УЛ.,ТУХАЧЕВСКИЙ,ДОМ,22,КОРП.,3/15+)
15-(221,АДР_) ГДЕ(12-,15-)
ПРЕДЛ_(221,4-,5-,6-,8-,9-,О,ТОМ,12-,14-,15-)
Первый фрагмент
ДОК_(221,'TEXT_98.TXT','S_CRI.NL') указывает, что содержательный портрет
построен на основе документа 221 из файла 'TEXT_98.TXT'. При этом были
использованы лингвистические знания 'S_CRI.NL'. Второй фрагмент представляет
дату. Добавка 4-(221,ДАТА_) указывает на принадлежность даты к документу 221.
Такие фрагменты необходимы для быстрого поиска нужных фрагментов, когда в
оперативной памяти (БЗ) находится множество содержательных портретов. Последний
фрагмент ПРЕДЛ_(221,...) содержит коды других фрагментов и представляет порядок
расположения соответствующей информации в тексте документа.
Такие сети представляют
достаточно высокий уровень формализации текстов и удобны для обработки - с
помощью инструментальных средств ДЕКЛ.