Материал из IpiranLogos.

Главная страница -- Технологии

Экспертные системы на основе анализа содержательных портретов соотносят документ к определенной категории (пункту классификатора).
В ЭС первого типа с каждой категорией связываются слова с указанием их весов. Такие веса являются результатом статистического анализа эталонных документов (проанализированных человеком), т.е. предполагается этап обучения.
Например, для резюме в разделе "Профессиональная область" имеется следующий классификатор (представленный в виде ЭЗ):

  FIELD_(1,"Информационные Технологии-Интернет")
  FIELD_(2,"Бухгалтерия-Управлен учет")
  FIELD_(3,"Маркетинг-Реклама-PR")
  FIELD_(4,"Всп персонал-Секретариат")
  FIELD_(5,"Банки-Инвестиции-Лизинг")
  ......


С каждой категорией данного классификатора связаны взвешенные слова следующим образом:

  VES_FI(АДМИНИСТАТОР,0.4,1)
  VES_FI(АДМИНИСТРАТИВНЫЙ,0.4,1)
  VES_FI(АДМИНИСТРАТОР,0.4,1)
  VES_FI(АНАЛИТИК,0.4,1)
  VES_FI(АССИСТЕНТ,0.4,1)
  VES_FI(БАЗА,0.4,1)
  VES_FI(БД,0.82,1)
  .......
  VES_FI(АДМИНИСТРАТИВНЫЙ,0.4,2)
  VES_FI(АНАЛИТИК,0.4,2)
  VES_FI(АССИСТЕНТ,0.4,2)
  VES_FI(АУДИТОР,0.89,2)
  VES_FI(АУДИТОРСКИЙ,1,2)
  VES_FI(БИЗНЕС,0.4,2)
  .......
  


В каждом фрагменте VES_FI на первом аргументном месте стоит слово, на следующем месте - вес слова, а на последнем месте стоит номер пункта. Одни и те же слова могут соотноситься (со своими весами) к разным категориям. Каждому документу присваивается лишь одна категория, имеющая наибольшую взвешенную сумму слов.
В ЭС второго типа с каждой категорией связываются характеризующие слова или пары слов (словосочетания), которые берутся из фрагментов, соответствующих информационным объектам указанного типа. Одно и тоже слово или словосочетание может соотноситься лишь с одной категорией.
Например, в резюме в разделе "Образование" возьмем две категории:

  E_EDUC(1,"(Высшее)"/1+)
    1-(ВЫСШИЙ,ОБУЧ_) 1-(АСПИРАНТ,ОРГ_)
    1-(УНИВЕРСИТЕТ,ОРГ_) 1-(ВУЗ,ОРГ_)
    1-("Диплом с отличием",ОРГ_) ...
  E_EDUC(4,"(Высшее Кандидат наук)"/4+)
    4-(ДИССЕРТАЦИЯ,СПЕЦ_) 4-(СТЕПЕНЬ,КАНД.,СПЕЦ_) 
  ...
   


Первая категория образования (Высшее) выбирается:
- если во фрагменте ОБУЧ_(...), представляющем описание уровня образованности, встретилось слово ВЫСШЕЕ;
- если во фрагменте ОРГ_(...) встретилось одно из слов АСПИРАНТ,УНИВЕРСИТЕТ,ВУЗ,"Диплом с отличием", ...
Четвертая категория (Высшее Кандидат наук) выбирается, если во фрагменте СПЕЦ_(...), представляющем специальность, встретилось слово ДИССЕРТАЦИЯ или пара слов СТЕПЕНЬ,КАНД. и т.д.