Материал из IpiranLogos.

Главная страница -- Технологии

Особенности семантического поиска:
Роль запроса играет содержательный портрет информационного объекта (ИО) – его компоненты, свойства и связи. Будем называть такой объект исходным. Требуется найти в Базе Знаний (БЗ) объекты с такими же компонентами, свойствами и связями. Поиск идет на уровне структур знаний, где учитываются различные виды связей. Поэтому такой поиск относится к классу семантических. Степень близости или «похожести» найденных или отобранных объектов (по отношению к исходному объекту) оценивается с помощью их весов, которые подсчитываются с учетом весов совпавших слов.
Элементы исходного объекта: слово в нормальной форме, число, или какой-либо символ, а также связи, представленные в виде фрагментов РСС. Элементы различаются по их значимости. Для всех ИО задается множество незначимых слов - которые не должны учитываться при поиске. Для каждого типа ИО задаются малозначимые слова, которые в малой степени (с малыми весами) должны учитываться при поиске. Значимым называется элемент исходного объекта, который не относится к множеству незначимых и малозначимых слов. Степень значимости элемента зависит от его уникальности и характеристических свойств. Такая степень задается весами. Некоторым элементам присваивается статус обязательности. В этом случае производится поиск объектов только с такими элементами.
Критерий полноты. Отметим, что семантические семантический поиски (если нет связей) не эффективен, когда исходный объект состоит из малого небольшого количества числа часто встречающихся элементов – слов. Поэтому вводится понятие полноты объекта, который определяет, когда следует включать семантический поиск. Критерий полноты объекта зависит от его типа и задается шаблонами. Например, шаблон <слово><слово><число> означает, что объект должен содержать два значимых элемента-слова и один элемент-число. Порядок не играет роли (в простейшем случае). Для объектов каждого типа задается свой шаблон или несколько шаблонов.

Виды семантического поиска:
Точный поиск объектов (ИО).
Требует полноты исходного объекта и наличия всех обязательных элементов у найденных объектов. При точном поиске лиц требуется наличие полного ФИО (или инициалов вместо имени и отчества) и совпадение всех элементов у найденных объектов. При этом допускается совпадение имен, отчеств и инициалов – по первым буквам. Такое совпадение будем называть частичным. При поиске учитывается год рождения, который считается факультативным элементом ФИО.
Поиск похожих объектов (ИО).

Не требуется наличия всех значимых элементов исходного объекта (запроса) у найденных объектов в Базе Знаний (БЗ). По совпавшим элементам подсчитывается вес най-денного объекта (он определяет степень его близости к исходному объекту). Если не совпадают типизированные элементы, то из общей суммы вычитается определенный вес, например, когда при сравнении лиц не совпали отчества или инициалы.
Поиск похожих объектов с учетом онтологий
.
Онтологии используются при сопоставлении объекта в содержательном портрете запроса с объектами в БЗ. Допускается частичное совпадение элементов (с учетом связей типа «род-вид», сокращений, или степени близости слов). По совпавшим элементам подсчитывается вес найденного объекта.
Поиск похожих объектов с учетом связей.

Признаки и связи являются источником ключевых слов и значимых элементов, которые дополняют множество значимых элементов исходного объекта. Например, это может быть кличка, имя отношения или действия, в кото-ром участвует объект и др. Все элементы полученного множества участвуют в поиске и под-счете весов. По совпавшим элементам подсчитывается вес. Пример – поиск лиц без ФИО по приметам или лиц с частично заданным ФИО.
Поиск похожих действий и событий.

Действия и события - это тоже информационные объекты (ИО). Особенность их поиска – в выделении и последующем сопоставлении значимых элементов. Если в исходном действии принимает участие какой-либо ИО, то в найденном действии (с тем же именем) ищется ИО такого же типа. Для этого используются фрагменты, задающие онтологию. Например, если в исходном действии участвует лицо, то в найденном действии с тем же именем тоже ищется лицо. Эти лица сравниваются по степени похожести. В результате вес действия подсчитывается как сумма весов участвующих в них объектов.
Навигация по связям.

По исходному объекту (выделенного из содержательного портрета запроса) производится поиск связанных с ними объектов. Для каждого из них ищутся аналогичные объекты (из других документов) и связанные с ними объекты и т. д. В результате строится граф связей.
Отметим, что тип исходного объекта во многом определяет эффективность поиска. Например, при поиске телефонов, сайтов, дат, документов, номерных вещей, статей УК (где числовые данные определяют объект) работают только точные поиски. Онтологии, в основном, требуются при поиске похожих действий, поиске по приметам (реже – для автотранспорта, оружия). Поиск похожих объектов с учетом связей – в основном для лиц без ФИО.
Рассмотренные виды семантического поиска реализованы в логико-аналитической системе «Криминал», предназначенной для решения задач оперативных работников