Главная Страница > Публикации

 Семантико-ориентированная система обработки неформализованной            информации с выдачей результатов на естественном языке

             

               Кузнецов Игорь Петрович (ИПИ РАН)

             

                       Аннотация

   

    Рассматриваются система, обеспечивающая автоматическую формализацию различного рода справок и сообщений (автобиографических данных, заявок на работу, резюме, сообщений СМИ), представляющих собой тексты естественного языка. При этом используется методика, состоящая из трех этапов.

    На первом из текста выявляются информационные объекты и их связи. Имеется в виду: ФИО, год рождения, адрес, время и место учебы с указанием наименования учебного заведения, факультета, специальности, места работы (организации) с указанием периода работы, должности и др. Для этого используется семантико-ориентированный лингвистический процессор, который преобразует тексты в структуры Базы Знаний.

    На втором этапе осуществляется анализ этих структур с получение новых данных (общее время работы, знание языков и др.). Для этого используются экспертные системы.

    На третьем этапе структуры знаний и полученные данные представляются в виде компонент естественного языка (словосочетаний, предложений) и отображаются на поля формализованной анкеты или структурированного сайта. Это делается с помощью обратного

лингвистического процессора.

    Предлагаемая система ориентирована на задачи кадровых, рекрутинговых агентств и различного рода служб, имеющих дело с потоками текстовых документов.

 

     Введение

    

    Перед многими службами, имеющими дело с потоками текстовой информации, возникает проблема их формализации: необходимость представления в тех формах, которые приняты в этих службах и в рамках которых данная информация используется. Например, важная задача многих кадровых и рекрутинговых агентств связана автоматической обработкой автобиографических данных, заявок на работу (резюме), написанных в достаточно произвольной форме - в виде текстов естественного языка (ЕЯ). Такие тексты содержат сведения о человеке: ФИО, год рождения, адрес, время и место учебы с указанием наименования учебного заведения, факультета, специальности, места работы (организации) с указанием периода работы, должности, основных обязанностей и др. Будем называть эти данные информационными объектами.

     Использовать такие тексты, представленные в электронном виде, например, для поиска нужного работника, составления разного рода отчетов, оказывается не простой задачей. Полнотекстовые базы данных могут служить для поиска отдельных компонент: ФИО, организаций с уникальными названиями и др. Но общей картины получить трудно.

    Требуется формализация текстов: выделение значимых компонент (информационных объектов) и их отображение на поля требуемой анкеты с фиксированными полями или сайта. Тогда становится возможным использование типовых средств для решения пользовательских задач. Во многих службах и агентствах такая формализация делается вручную специально подготовленными людьми, или же самим человеком, которому предлагается ввести его сведения в указанные поля по требуемой форме. Это достаточно трудоемкая работа. Следует также учитывать тот факт, что во многих службах и агентствах уже накоплены в электронном виде данные большого объема, представляющие собой неформализованную информацию - тексты ЕЯ. Требуется их формализация.

    

    Существующие системы автоматической формализации текстов основаны на использовании больших словарей (списки должностей, организаций) и деревьев разбора для контекстного анализа. Но этого недостаточно. Поэтому системы ориентированы лишь на выделение ограниченного набора объектов (обычно, это лица, даты, адреса, телефоны) без установления связей.

    Причиной этому являются те трудности, с которыми приходится сталкиваться разработчику при построении систем формализации, Рассмотрим некоторые из них.

    Во-первых, это разнообразие форм ЕЯ, с помощью которых могут выражаться одни и те же сведения. Например, даты могут быть записаны в сокращенной форме (авг.05), в виде дробных чисел (09.99 г.), разного рода специальных знаков или кавычек (09/99 или 09'1999) и т.д. Тоже самое относится к ФИО, адресам и др. Их нужно приводить к стандартному виду.

    Во-вторых, необходимо устанавливать связи между объектами. Например, адреса должны быть связаны с лицами, которые по этим адресам проживают или прописаны. Аналогичное касается телефонов и других объектов. Важно, кто владелец телефона и по какому адресу он

находится. В явном виде это может быть не указано и распознано только по контексту, где зачастую требуется учитывать и семантику слов. Например, лицо может позвонить по телефону или купить телефон и т.д.

    Еще более трудные случаи возникают при анализе автобиографических данных, резюме . Организации, где человек работал, должности, периоды работы и основные обязанности могут быть записаны в произвольной последовательности, что приводит не только к трудностям их выделения, но и установления связей между ними. Если период работы в какой-либо организации записан в конце и далее идет другая организация, то нужно уметь определять, куда отнести этот период. Следует отметить, что периоды или даты могут находиться в разных местах, в том числе, внутри текста описания работы или в конце (часто в скобках).

    Человеку по смыслу проще понять, что к чему относится. Значительно труднее выработать формальные критерии разделения и установления связей, которые бы давали допустимое количество шумов и потерь. По указанным причинам не всегда дают эффект алгоритмы, которые делят текст на достаточно самостоятельные части и проводят анализ по частям.

    В-третьих, требуется идентификация объектов, например, если для какого-либо лица вначале указывается ФИО, а затем оно упоминается по имени или путем использования местоимений, анафорических ссылок.

    В-четвертых, серьезные трудности вызывает большое количество сокращений, отсутствие знаков препинания (точек), наличие спецзнаков, остающихся после перекодировки текстов, а зачастую и ошибок в написании.

    Перечисленные особенности приводят к необходимости учитывать в процессе формализации не только формальные признаки (наличие пробельной строки, слова с большой буквы в начале строки и др.), но и семантические. Например, слово, означающее должность, не должно залезать в объект, представляющий организацию и т.д. Для этого вводится семантический уровень - этап обработки на уровне структур знаний.

    

    1. Общая структура

    

     Для формализации текстовой информации (документов, справок и др.) предлагается многоуровневая система, основанная на методиках извлечения семантической информации, разработанных в ИПИ РАН в рамках системы АНАЛИТИК [2,3]. Особенность методик заключается в переносе сложных этапов лингвистического анализа на уровень обработки структур знаний - расширенных семантических сетей (РСС), где за счет использования инструментальных средств DECL реализуются сложные виды синтактико-семантического анализа и идентификации [4,5].

    На первом этапе вызывается блок морфологического анализа, который преобразует текст в семантическую сеть, представляющую поверхностную структуру текста. В этой сети все слова преобразованы в каноническую (нормальную) форму. В ней представлен порядок расположения слов и других знаков, а также начало и конец каждого предложения. Для каждого слова указаны его морфологические характеристики (часть речи, падеж и др.) и чисто формальные признаки: слово с большой буквы, большими буквами, с точкой на конце и др.

    На втором этапе работает прямой лингвистический процессор (ЛП), который управляются с помощью лингвистических знаний (ЛЗ). Прямой ЛП - это оболочка, которая становится процессором после ее заполнения ЛЗ. ЛЗ - это также структуры знаний (РСС). ЛЗ прямого ЛП представляют собой контекстные правила специального вида [2]. Прямой ЛП преобразует тексты в структуры знаний, называемые содержательными портретами документа (резюме), где с помощью РСС представлены информационные объекты и их связи. Это предметные знания. На уровне структур знаний идет их обработка - преобразование представлений, приведение компонент информационных объектов к единому виду, установлению связей, в том числе, которые даны по умолчанию, и др.

    На третьем этапе полученная структура дополняется новыми данными. Например, при формализации анкетных данных человека устанавливается (по соответствующему классификатору) профессиональная область, степень его образованности, знание языков и др. Это осуществляется с помощью экспертных систем (ЭС), которые представляют собой оболочку с экспертными знаниями (ЭЗ). В соответствии с ними ЭС анализируют фрагменты содержательного портрета для выбора того или иного пункта классификатора, например, иметь высшее образование или неполное высшее, см. п.5.

    На четвертом этапе работает обратный лингвистический процессор (ЛП), который преобразует структуры знаний (РСС) в компоненты ЕЯ и отображает их на поля анкеты или сайта. Обратный ЛП - это также оболочка, которая управляется своими ЛЗ, см. п.6. ЛЗ обратного ЛП определяют вид формируемой анкеты и связь ее полей с компонентами содержательного портрета документа (РСС).

     Итак, а предлагаемой системе, во-первых, обработка идет на уровне структур знаний (РСС) с использованием созданного для этого инструментария (языка ДЕКЛ). Отсюда возможность вовлечения в процесс анализа семантических категорий и различного рода связей. И во-вторых, основные  процессоры  сделаны как оболочки, которые легко подстраивать под предметную область и особенности текстов за счет знаний -  ЛЗ  или ЭЗ.  Это  очень  важно, когда требуется обработка реальных текстов. На стадии проектирования удается учесть лишь малую часть их особенностей.

    Дальнейшее  совершенствование     качество   системы)   определяется удобством и возможностями средств подстройки.

   

    2. Представление знаний

 

     Знания (предметные, лингвистические и экспертные) представляются в виде структур, которые записываются в нотации семантических сетей, дополненных средствами представления событийных компонент и комплексных связей. В результате образуются расширенные семантические сети (РСС). РСС состоит из элементарных фрагментов, имеющих произвольное количество аргументных мест (но не более 200) и представляющих свойства, отношения, события, действия. Множество фрагментов - это РСС [1,6].

     В простейшем случае фрагмент имеет вид N-местного предиката. Например, ОРГ_(ВСЕМИРНЫЙ,ФОНД,ДИКИЙ,ПРИРОДА,WWF) - это фрагмент, представляющий организацию. В тоже время фрагмент - это более сложная конструкция, которая далеко выходит за рамки типовых предикатов логики 1-го и 2-го порядков.

     Во-первых, во фрагментах широко используются внутрисистемные коды - это числа, к которым добавляется знак плюс (+), когда вводится новый код, или знак минус (-), когда используется уже введенный код. Например, "1+" и "1-" - есть обозначение одного и того же объекта (или отношения), а "2+" и "2-" - уже другого, и т.д. Такие числа служат для обозначения неименованных объектов, например, порождаемых самой системой.

     Во-вторых, вводится специальный код фрагмента, соответствующий всей представленной в фрагменте информации. Например, в фрагменте ТЛФ_(т.8499742-55-88/2+) код 2+ представляет телефон. Эти коды могут стоять на аргументных местах других фрагментов. Например, фрагменты

        

 FIO(ВОРОНИНЛЕКСЕЙ,ИВАНОВИЧ," "/1+)

 ТЛФ_(Т.8499742-55-88/2+)

 ДОМ.(2-)

 ИМЕТЬ(1-,2-)

                                                   

представляют, что лицо Воронин Алексей Иванович (ему сопоставлен код 1+, 1-) имеет (ИМЕТЬ) телефон, которому сопоставлен код 2+, 2-. Фрагмент ДОМ.(2-) представляет свойство: телефон домашний. Коды фрагментов необходимы для представления комплексной информации и различных видов связей.

     РСС нашли широкое применение для представления семантической информации, содержащихся в текстах на ЕЯ (системы ДИЕС, ИКС, АНАЛИТИК). Одно и тоже понятие может называть различные объекты одного типа, которые нужно различать. Отсюда необходимость в внутрисистемных кодах. РСС ориентированы на отображение возможности интеграции множества связанных объектов в один объект, что выражается на ЕЯ в виде форм с отглагольными существительными. Понятие связи рассматривается в широком смысле. Это могут быть не только отношения, но и зависимости. Связанными считаются также объекты, участвующие в одном действии. Группа связанных объектов может быть связана с другой группой, что на ЕЯ выражается в виде глагольных форм с отглагольными

существительными.

    

     3. Содержательные портреты документов

    

     Сеть (РСС), представляющая объекты и связи какого-либо документа, образует так называемый содержательный портрет этого документа. Такие портреты в системе АНАЛИТИК обеспечивают быстрый и качественный поиск информации по значимым компонентам и связям [2,4]. В данном случае такой портрет является основой формирования текста описания на ЕЯ. В качестве примера возьмем типовое неформализованное резюме

рекрутингового агентства                         

   

  РЕЗЮМЕ

  Воронин Алексей Иванович

  Дата рождения: 15 июля 1970 года

  Москва, ул. Вавилова д. 23 кв.15

  8 499 742-55-88 (дом.)

  E-mail: vooron@mail.com

  Желаемая должность: дизайнер, дизайнер-верстальщик

                                                                                                                                                                                                     

  Трудовая деятельность:

                                                                                                                                                                                                                                                               

  июнь 2004 - сентябрь 2005

  Типография "МБ принт" ( препресс - инженер)

  Подготовка к печати (препресс), фотовывод, верстка, дизайн

                                                                                                                                                                                                                                                               

  май 2003 - февраль 2004

  Архитектурное бюро "Керамос" ( дизайнер полиграфической продукции) Вся

  полиграфическая продукция компании (буклеты, каталоги, календари,

  визитки, открытки, рекламные щиты на улице╡), оформление выставок.

                                                                                                                                                                                                                                                               

  апрель 2002 - май 2003:

  Журнал "AutoParts"- дизайнер-верстальщик. Разработка макета издания,

  верстка журнала, создание рекламных модулей

                                                                                                                                                                                                                                                               

  апрель1998 - апрель 2002

  Всемирный Фонд Дикой Природы (WWF)

  Ассистент по печати

  Разработка дизайна, верстка и печать бюллетеня, брошюр, календарей и др.

  печатной продукции.

  Работа с прессой (написание статей, пресс-релизов, проведение конкурсов),

  написание научно-популярных изданий.

                                                                                                                                                                                                                                                               

  Образование: Неполное высшее

  Московский Государственный Педагогический Университет

  Знание иностранного языка:  свободный английский,

  французский - читаю и могу объясняться .

                                                                                                                                                                                                                                                               

  Профессиональные навыки:

  - Дизайн-верстка (рекламная продукция, буклеты, календари, макеты журналов,

  упаковка);

  - Фотосъемка

  Владение компьютером: Платформа PC/MAC. QuarkXPress, продукты Adobe.

                                                                                                                                                                                                                                                               

       Его содержательный портрет:

                             

   ДОК_(0,RESUME_1.TXT," "/0+)  0-(RUS)

   FIO(ВОРОНИНЛЕКСЕЙ,ИВАНОВИЧ," "/1+)

   ТЛФ_(Т.8499742-55-88/2+)

   ДОМ.(2-)

   ИМЕТЬ(1-,2-)

   E_MAIL(VOORON@MAIL.COM/3+)

   ИМЕТЬ(1-,3-)

   АДР_(МОСКВААВИЛОВА,УЛ.,ДОМ,23,КВ.,15/4+)

   ИМЕТЬ(1-,4-)

   ДАТА_(#15.7.1970,1970,ИЮЛЬ,~15/5+)

   Г_РОЖД(5-/6+)

   ПОЗИЦИЯ_(ДИЗАЙНЕРИЗАЙНЕР,ВЕРСТАЛЬЩИК/7+)  7-(0,ПОЗИЦИЯ_)

   ДАТА_(#__.6.2004,2004,ИЮНЬ,__/8+)

   ДАТА_(#__.9.2005,2005,СЕНТ.,__/9+)

   ВРЕМЯ_(8-,9-/10+)

   ОРГ_(ТИПОГРАФИЯ,МБ,ПРИНТ/11+)

   "Профессиональный опыт"(11-)

   РАБ_(ПРЕПРЕССНЖЕНЕР/12+)

   СВЯЗЬ_(11-,12-)

   ВРЕМЯ_РАБ(10-,11-)

    ОПЫТ_РАБ(ПОДГОТОВКА,К,ПЕЧАТЬ,ПРЕПРЕССА,ФОТОВЫВОД,ВЕРСТКА,

   ДИЗАЙН/13+)

   ДАТА_(#__.5.2003,2003,МАЙ,__/14+)

   ДАТА_(#__.02.2004,2004,ФЕВРАЛЬ,__/15+)

   ВРЕМЯ_(14-,15-/16+)

   ОРГ_(АРХИТЕКТУРНЫЙ,БЮРО,КЕРАМОС/17+)

   "Профессиональный опыт"(17-)

   РАБ_(ДИЗАЙНЕРОЛИГРАФИЧЕСКИЙ,ПРОДУКЦИЯ/18+)

   СВЯЗЬ_(17-,18-)

   ВРЕМЯ_РАБ(16-,17-)

   OBJ_(ПРОДУКЦИЯОМПАНИЯ/19+)

   ДАТА_(#__.4.2002,2002,АПР.,__/20+)

   ДАТА_(#__.5.2003,2003,МАЙ,__/21+)

   ВРЕМЯ_(20-,21-/22+)

   ОРГ_(ЖУРНАЛ,AUTOPARTS/23+)

   "Профессиональный опыт"(23-)

   РАБ_(ДИЗАЙНЕРЕРСТАЛЬЩИК/24+)

   СВЯЗЬ_(23-,24-)

   ВРЕМЯ_РАБ(22-,23-)

   ОПЫТ_РАБ(РАЗРАБОТКА,МАКЕТ,ИЗДАНИЕ,ВЕРСТКА,ЖУРНАЛ,СОЗДАНИЕ,

   РЕКЛАМНЫЙОДУЛЬ/25+)

   ДАТА_(АПРЕЛЬ,1998/26+)

   ДАТА_(#__.4.2002,2002,АПР.,__/27+)

   ВРЕМЯ_(26-,27-/28+)

   ОРГ_(ВСЕМИРНЫЙ,ФОНД,ДИКИЙ,ПРИРОДА,WWF/29+)

   "Профессиональный опыт"(29-)

   РАБ_(АССИСТЕНТО,ПЕЧАТЬ/30+)

   СВЯЗЬ_(29-,30-)

   ВРЕМЯ_РАБ(28-,29-)

   ОПЫТ_РАБ(РАБОТА,С/31+)

   ОБУЧ_("Образование:",НЕПОЛНЫЙЫСШИЙ/32+)

   ОРГ_(МОСКОВСКИЙ,ГОСУДАРСТВЕННЫЙ,ПЕДАГОГИЧЕСКИЙ,УНИВЕРСИТЕТ/33+)

   "Образование:"(33-)

   ЯЗЫК_(СВОБОДНЫЙНГЛИЙСКИЙ/34+)

   ЯЗЫК_(ФРАНЦУЗСКИЙИТАТЬ,И,МОЧЬ/35+)

                                                                                                                                                                                                                                                               

   ПРЕДЛ_(0,РЕЗЮМЕ/36+)  36-(1,1,10)

   ПРЕДЛ_(0,1-/37+)  37-(2,11,38)

   ПРЕДЛ_(0,6-,4-/38+)  38-(4,39,107)

   ПРЕДЛ_(0,2-,E-MAIL,3-/39+)  39-(6,108,156)

   ПРЕДЛ_(0,"Желаемая должность",7-/40+)  40-(8,157,210)

   ПРЕДЛ_(0,"Профессиональный опыт"/41+)  41-(10,211,236)

   ПРЕДЛ_(0,10-,11-/42+)  42-(12,237,308)

   ПРЕДЛ_(0,13-/43+)  43-(14,309,370)

   ПРЕДЛ_(0,16-,17-,ПОЛИГРАФИЧЕСКИЙ,19-,БУКЛЕТАТАЛОГ,КАЛЕНДАРЬ,

ВИЗИТКАТКРЫТКА,РЕКЛАМНЫЙ,ЩИТ,НА,УЛ.,╡,ОФОРМЛЕНИЕ,ВЫСТАВКА/44+)

    44-(16,371,604)

   ПРЕДЛ_(0,22-,23-/45+)  45-(21,605,672)

   ПРЕДЛ_(0,25-/46+)  46-(23,673,746)

   ПРЕДЛ_(0,28-,29-/47+)  47-(25,747,830)

   ПРЕДЛ_(0,РАЗРАБОТКАИЗАЙН,ВЕРСТКА,И,ПЕЧАТЬ,БЮЛЛЕТЕНЬ,БРОШЮРА,

КАЛЕНДАРЬ,ДР,ПЕЧАТНЫЙ,ПРОДУКЦИЯ/48+)  48-(28,831,925)

   ПРЕДЛ_(0,31-,ПРЕССААПИСАНИЕ,СТАТЬЯ,ПРЕСС,РЕЛИЗ,ПРОВЕДЕНИЕ,

КОНКУРСАПИСАНИЕ,НАУЧНЫЙ,ПОПУЛЯРНЫЙ,ИЗДАНИЕ/49+)  49-(30,926,1040)

   ПРЕДЛ_(0,32-,"Образование:",33-/50+)  50-(33,1041,1125)

   ПРЕДЛ_(0,"Знание языка",34-,35-/51+)  51-(35,1126,1221)

   ПРЕДЛ_(0,"Профессиональный опыт"ИЗАЙН,ВЕРСТКА,РЕКЛАМНЫЙ,ПРОДУКЦИЯ,

БУКЛЕТАЛЕНДАРЬ,МАКЕТ,ЖУРНАЛ,УПАКОВКА/52+)  52-(38,1222,1338)

   ПРЕДЛ_(0,ФОТОСЪЕМКА/53+)  53-(41,1339,1352)

   ПРЕДЛ_(0,ВЛАДЕНИЕОМПЬЮТЕР,ПЛАТФОРМА,PC,MAC/54+)  54-(43,1353,1392)

   ПРЕДЛ_(0,QUARKXPRESS,ПРОДУКТ,ADOBE/55+)  55-(43,1393,1419)

 

     Фрагменты ДОК_(0,RESUME_1.TXT," "/0+) 0-(RUS) указывают, что содержательный портрет построен на основе русскоязычного текста из файла 'RESUME_1.TXT'. Следующие фрагменты представляет лицо (ФИО), телефон (ТЛФ_) дату (ДАТА_), которая является годом рождения (Г_РОЖД), Желаемую должность (ПОЗИЦИЯ_).

     Далее представлен "Профессиональный опыт"(11-), который рассматривается как свойство организации ОРГ_(ТИПОГРАФИЯ,МБ,ПРИНТ/11+). С помощью ВРЕМЯ_(8-,9-/10+) представлен интервал времени (8- и 9- это коды фрагментов-дат), который связан с

организацией с помощью фрагмента ВРЕМЯ_РАБ(10-,11-). К этой же организации привязана должность: РАБ_(ИНЖЕНЕР/12+) СВЯЗЬ_(11-,12-).

     С помощью фрагмента ОБУЧ_("Образование:",НЕПОЛНЫЙЫСШИЙ/32+) представлен уровень квалификации, а с помощью

ЯЗЫК_(СВОБОДНЫЙНГЛИЙСКИЙ/34+) ЯЗЫК_(ФРАНЦУЗСКИЙ,ЧИТАТЬ,И,МОЧЬ/35+) - знание языка. Эти фрагменты необходимы для экспертных систем.

 

     Особую роль играют фрагменты ПРЕДЛ_(...), которые соответствуют предложениям. Они заполняются словами, не вошедшими в информационные объекты, а также кодами самих объектов. К этим фрагментам добавляются указатели их местоположения в тексте. Например, фрагменты 

                                                                                                                                                                                                                                                             

   ПРЕДЛ_(0,10-,11-/42+)  42-(12,237,308)

 

представляют тот факт, что объекты с кодами 10- (интервал времени) и 11- (организация) находятся в предложении, которое начинается с 12-ой строки текста и занимают место от 237-го байта до 308-го. Это средства позиционирования, которые необходимы для работы обратного ЛП.

     Итак, содержательные портреты - это наборы фрагментов РСС, которые представляют достаточно высокий уровень формализации текстов и удобны для обработки - с помощью инструментальных средств ДЕКЛ [6].

                                        

     4. Прямой лингвистический процессор

 

     Прямой лингвистический процессор (ЛП) обеспечивает автоматическое построение содержательных портретов. Он включает в себя лексикографический, морфологический, терминологический и синтактико-семантический анализ.

     Морфологический анализ необходим, чтобы избавиться от различных форм написания слов. Все словоформы одного и того же слова приводятся к единому виду - каноническому. Терминологический анализ обеспечивает выделение терминов, а также синонимичные преобразования.

     Синтактико-семантический анализ осуществляется специальными "контекстными" правилами [2,5], которые являются основой лингвистических знаний (ЛЗ). Контекстные правила позволяют выделять согласованные слова (словосочетания), а также несогласованные группы слов. Учитывается тот факт, что многие информационные объекты (даты, адреса, многие организации и т.д.) - это наборы слов, сокращений, мнемонических обозначений, которые часто грамматически никак не согласованы. Их выделение может осуществляться по чисто формальным принципам.

     Например, адрес может рассматриваться как набор буквосочетаний Г., УЛ., Д.,.., слов с большой буквы и чисел. Каждый такой набор может иметь свои границы и недопустимые компоненты. Например, в адресах не может быть ФИО, глаголов и т.д. Выделение таких наборов слов (описаний объектов) осуществляется с помощью контекстных правил специального вида. Левая часть такого правила состоит из позиций, с которыми связаны признаки слов. Слова с указанными признаками могут стоять на данной позиции. В общем случае признаки могут быть организованы в виде И-ИЛИ графы.

     Для каждого правила указывается, с какой позиции начинать применение, а также допустимый или недопустимый контекст. Далее, может быть указано, слово с какими признаками не должно стоять на той или другой позиции. Это обеспечивает дифференцированное применение правил.   Такие правила выделяют из текста группы слов (по их признакам), описывающих какой-либо объект, и заменяют их на фрагмент (его код),

например, представляющий адрес. Этот фрагмент (его код) рассматривается как самостоятельное слово со своими признаками. Правила применяются в определенной последовательности. Вначале выделяются объекты, затем их признаки, словосочетания, и наконец, глагольные формы. По мере применения таких правил строится семантическая сеть - содержательный портрет документа.

     Специальные правила осуществляют идентификацию объектов, например, на основе местоимений или кратких описаний (по имени восстанавливается фамилия, если они где-нибудь упоминались вместе). 

     Другие правила для каждого указанного объекта (например, организации) ищут связанные объекты (должность, специальность). При этом задается стратегия поиска: в какую сторону идти, на сколько шагов, на каких объектах заканчивать поиск. И многое другое, что необходимо для работы с естественным языком.

     Отметим, что каждое контекстное правило - это семантическая сеть (PCC). Все лингвистические знания записываются в виде PCC. Над ними работают продукции языка ДЕКЛ (программа, реализующая оболочку), которые применяют эти правила и играют роль лингвистической оболочки, поддерживающей язык записи лингвистических знаний - PCC. Такую оболочку можно настраивать на различные области приложений, т.е. строить различные лингвистические процессоры.

     

     5. Экспертные системы

    

     Экспертные системы на основе анализа содержательных портретов соотносят документ к определенной категории (пункту классификатора). В системе реализовано два типа оболочек для экспертных систем (ЭС). Первая основана на весовых коэффициентах слов, соответствующих определенной категории. Вторая - на наличии слов в информационных

объектах.

     В ЭС первого типа с каждой категорией связываются слова с указанием их весов. Такие веса являются результатом статистического анализа эталонных документов (проанализированных человеком), т.е. предполагается этап обучения.

     Например, для резюме в разделе "Профессиональная область" имеется следующий классификатор (представленный в виде ЭЗ):

 

   FIELD_(1,"Информационные Технологии-Интернет")

   FIELD_(2,"Бухгалтерия-Управлен учет")

   FIELD_(3,"Маркетинг-Реклама-PR")

   FIELD_(4,"Всп персонал-Секретариат")

   FIELD_(5,"Банки-Инвестиции-Лизинг")

   ......

     С каждой категорией данного классификатора связаны взвешенные слова следующим образом:

 

   VES_FI(АДМИНИСТАТОР,0.4,1)

   VES_FI(АДМИНИСТРАТИВНЫЙ,0.4,1)

   VES_FI(АДМИНИСТРАТОР,0.4,1)

   VES_FI(АНАЛИТИК,0.4,1)

   VES_FI(АССИСТЕНТ,0.4,1)

   VES_FI(БАЗА,0.4,1)

   VES_FI(БД,0.82,1)

   .......

   VES_FI(АДМИНИСТРАТИВНЫЙ,0.4,2)

   VES_FI(АНАЛИТИК,0.4,2)

   VES_FI(АССИСТЕНТ,0.4,2)

   VES_FI(АУДИТОР,0.89,2)

   VES_FI(АУДИТОРСКИЙ,1,2)

   VES_FI(БИЗНЕС,0.4,2)

   .......

  

     В каждом фрагменте VES_FI на первом аргументном месте стоит слово, на следующем месте - вес слова, а на последнем месте стоит номер пункта. Одни и те же слова могут соотноситься (со своими весами) к разным категориям. Каждому документу присваивается лишь одна категория, имеющая наибольшую взвешенную сумму слов.

  

     В ЭС второго типа с каждой категорией связываются характеризующие слова или пары слов (словосочетания), которые берутся из фрагментов, соответствующих информационным объектам указанного типа. Одно и тоже слово или словосочетание может соотноситься лишь с одной категорией.

      Например, в резюме в разделе "Образование" возьмем две категории:

 

   E_EDUC(1,"(Высшее)"/1+)

     1-(ВЫСШИЙБУЧ_) 1-(АСПИРАНТ,ОРГ_) 1-(УНИВЕРСИТЕТ,ОРГ_) 1-(ВУЗ,ОРГ_)

     1-("Диплом с отличием"РГ_) ...

   E_EDUC(4,"(Высшее Кандидат наук)"/4+)

     4-(ДИССЕРТАЦИЯПЕЦ_) 4-(СТЕПЕНЬ,КАНД.,СПЕЦ_) ...

   

     Первая категория образования (Высшее) выбирается:

     - если во фрагменте ОБУЧ_(...), представляющем описание уровня образованности, встретилось слово ВЫСШЕЕ;

     - если во фрагменте ОРГ_(...) встретилось одно из слов АСПИРАНТ,УНИВЕРСИТЕТ,ВУЗ,"Диплом с отличием", ...

     Четвертая категория (Высшее Кандидат наук) выбирается, если во фрагменте СПЕЦ_(...), представляющем специальность, встретилось слово ДИССЕРТАЦИЯ или пара слов СТЕПЕНЬАНД. и т.д.

   

     Более сложные ЭС имеют двухуровневую структуру. Например, категории раздела "Знание языков" представляются в виде:

 

   E_LANG(1,"Английский"/1+) 1-(АНГЛИЙСКИЙ)

   E_LANG(2,"Французский"/1+) 1-(ФРАНЦУЗСКИЙ)

   E_LANG(3,"Немецкий"/1+) 1-(НЕМЕЦКИЙ)

   .....

     Это первый уровень, на котором решения принимаются путем анализа наличия слов АНГЛИЙСКИЙ, ФРАНЦУЗСКИЙ, ... в фрагментах ЯЗЫК_(...), представляющих знание языка. Выявляется, о каком языке идет речь.

     На втором уровне путем анализа этих же фрагментов ЯЗЫК_(...), но по наличию уже других слов, оценивается степень владения языком:

 

   E_LANG_1(4,"Свободно владею"/1+)

     1-(РОДНОЙ) 1-(СВОБОДНЫЙ) 1-(ВЫСОКИЙРОВЕНЬ)

   E_LANG_1(3,"Могу проводить интервью"/2+)

     2-(ИНТЕРВЬЮ) 2-(РАЗГОВОРНЫЙ) 2-(ХОРОШИЙРОВЕНЬ)

   E_LANG_1(2,"Читаю профессиональную литературу"/3+)

     3-(СВОБОДНЫЙТЕНИЕ) 3-(СВОБОДНЫЙ,ЧИТАТЬ) 3-(ТЕХНИЧЕСКИЙ,ЛИТЕРАТУРА) ...

   E_LANG_1(1,"Базовые знания"/4+)

     .....

     Результат анализа приведен в п.6.

    

     6. Обратный лингвистический процессор

    

     Обратный ЛП служит для преобразования содержательных портретов (РСС) в компоненты ЕЯ и для их отображения на поля анкеты или сайта. Этот процессор имеет свои лингвистические знания (ЛЗ), с помощью которых задается последовательность выдачи рубрик (полей) и какими объектами они должны заполняться. Для выделения таких объектов служат их имена (ОРГ_, РАБ_, ...), а также связи, заданные в РСС. Для каждого выделенного объекта строится его описание - из входящих в него нормализованных слов. Далее, по коду объекта находится соответствующее предложение (ПРЕДЛ_). За счет средств позиционирования находится место предложения в тексте, т.е. интервал от байта до байта. По описанию объекта в этом интервале ищется кусок предложения, соответствующий объекту. Этот кусок и выдается в качестве результата.

 

Приведем пример.

 

   W_SAY(ОРГ_," "," ","ПРОФЕССИОНАЛЬНЫЙ ОПЫТ",20/1+)

     W_MUSTBE(1-,PROP," ","Профессиональный опыт")

     1-(ВРЕМЯ_РАБ,1,ВРЕМЯ_,1,"Начало работы")

     1-(ВРЕМЯ_РАБ,1,ВРЕМЯ_,2,"Окончание работы")

     1-(" "," "," "," ","Название организации")

     1-(РАБ_,OUTSIDE," "," ","Занимаемая должность") .....

 

     Первые два фрагмента означают, что в содержательном портрете нужно искать ОРГ_(.../1+) со свойством "Профессиональный опыт"(1-). С помощью следующих двух фрагментов учитывается связь данной организации с временем работы. Они определяют поиск по коду ОРГ_(.../1+) другого фрагмента ВРЕМЯ_РАБ(2-,1-), где на 1-ом месте стоит ВРЕМЯ_(..,../2+). В нем надо взять первый аргумент и выдать под рубрикой "Начало работы", а второй - "Окончание работы". Далее под рубрикой "Название организации" выдается сама организация. Следующий шаг - это поиск фрагмента вида РАБ_(...,1-,..), включающего ОРГ_(.../1+). Он выдается под рубрикой "Занимаемая должность".

     Подобные ЛЗ задают стратегию "обхода" семантической сети по имеющимся связям с целью выделения объектов, которые выдаются под соответствующими рубриками (или заполняют поля анкеты).

   

     Напомним, что информационные объекты содержат слова в канонической форме. Выдавать их в таком виде для многих приложений недопустимо. Поэтому в системе выдача объекта, например, ОРГ_(ВСЕМИРНЫЙ,ФОНД,ДИКИЙ,ПРИРОДА,WWF/29+), сводится, во-первых, к построению его описания <ВСЕМИРНЫЙ,ФОНД,ДИКИЙ,ПРИРОДА,WWF>, и во-вторых, к нахождению соответствующего предложения -

ПРЕДЛ_(0,28-,29-/47+) 47-(25,747,830). Далее в интервале от 747-го байта до 830-го ищется сочетание слов, похожее на описание объекта. Причем, слова в предложении могут иметь другие окончания, или иметь другой порядок, или быть сокращениями, которые ранее были расшифрованы прямым ЛП. Программа, с помощью которой из предложения извлекается фрагмент текста (текст описания объекта), учитывает эти особенности, а также многие другие факторы: наличие кавычек, скобок, знаков препинания и т.д. В результате в соответствующее поле анкеты будет введено <Всемирный Фонд Дикой Природы (WWF)>.

 

     Таким образом, в полях анкеты будут только слова из текста. Это не относится к датам, которые предварительно стандартизуются и преобразуются к единому виду.

     За счет ЛЗ обратного ЛП можно сравнительно быстро изменять поля анкеты и их содержимое, т.е. настраивать систему на определенную анкету или сайт. Следует учитывать, что содержимое полей формируется на основе информационных объектов, выделенных прямым ЛП. Если пользователю требуется поле с объектом, который не выделяется этим ЛП, то нужно дополнять анализ - вводить новые контекстные правила в прямой ЛП. В силу их независимости эта процедура также не является чрезмерно трудоемкой. В результате обеспечивается достаточно быстрая подстройка системы под область приложений.

                                 

     Результат работы обратного ЛП и экспертных систем (см. РЕЗЮМЕ п.3):

 

   Язык резюме:->   Русский

   Фамилия:->  Воронин.

   Имя:->  Алексей.

   Отчество:->  Иванович.

   Пол:->  Мужской

   Дата рождения:->   15 июль 1970

   Образование:->  6 (Незаконченное высшее)

   Желаемая должность:->  Дизайнер, дизайнер верстальщик

                                                                                                                                                                                                                                                               

   Профессиональная область:->  3 - Маркетинг-Реклама-PR. Вес - 36.42

                                                                                                                                                                                                                                                               

   Опыт работы:-> 3 (Более 6 лет)

   Ожидаемый уровень месячного дохода:->

   Регион:->  1 (Москва и МО)

   Возможность переезда:->

                                                                                                                                                                                                                                                               

   E-mail:->   vooron@mail.com

   Почтовый адрес:->  Москва, ул. Вавилова д. 23 кв. 15

                                                                                                                                                                                                                                                               

   Домашний телефон:->  8499742-55-88.

   Мобильный телефон:->

   Рабочий телефон:->

   Телефон:->

   Личная интернет-страница:->

                                                                                                                                                                                                                                                               

   УЧЕБА:->

   Название:->  Московский Государственный Педагогический Университет

   Факультет (специальность):->

   Диплом (степень):->

   Начало учебы:->

   Окончание учебы:->

                                                                                                                                                                                                                                                               

   ПРОФЕССИОНАЛЬНЫЙ ОПЫТ:->

   Начало работы:->   Июнь 2004

   Окончание работы:->   Сентябрь 2005

   Название организации:->  Типография "МБ принт"

   Занимаемая должность:->  Препресс-инженер

   Обязанность, функции, достижения:->

    Подготовка к печати (препресс), фотовывод, верстка, дизайн

                                                                                                                                                                                                                                                               

   ПРОФЕССИОНАЛЬНЫЙ ОПЫТ:->

   Начало работы:->   Май 2003

   Окончание работы:->   Февраль 2004

   Название организации:->  Архитектурное бюро Керамос

   Занимаемая должность:->  Дизайнер полиграфической продукции

   Обязанность, функции, достижения:->

   Полиграфическая продукция компании буклеты, каталоги, календари,

   визитки, открытки.

                                                                                                                                                                                                                                                               

   ПРОФЕССИОНАЛЬНЫЙ ОПЫТ:->

   Начало работы:->   Апрель 2002

   Окончание работы:->   Май 2003

   Название организации:->  Журнал AutoParts

   Занимаемая должность:->  Дизайнер верстальщик

   Обязанность, функции, достижения:->

Разработка макета издания, верстка журнала, создание рекламных модулей.

                                                                                                                                                                                                                                                               

   ПРОФЕССИОНАЛЬНЫЙ ОПЫТ:->

   Начало работы:->   Апрель 1998

   Окончание работы:->   Апрель 2002

   Название организации:->  Всемирный Фонд Дикой Природы (WWF)

   Занимаемая должность:->  Ассистент по печати

   Обязанность, функции, достижения:->

Разработка дизайна, верстка и печать бюллетеня, брошюр, календарей и

др. печатной продукции. Работа с прессой (написание статей,

пресс-релизов, проведение конкурсов), написание научно-популярных

изданий.

 

   КУРСЫ (обучение):->

 

   Тесты (экзамены):->

   ЯЗЫКИ:->  Английский  - 4 (Свободно владею)

   ЯЗЫКИ:->  Французский - 2 (Читаю профессиональную литературу)

 

   РЕКОМЕНДАЦИИ:->

 

   Ключевые навыки:->

Профессиональные навыки: - Дизайн-верстка (рекламная продукция,

буклеты, календари, макеты журналов, упаковка);

- Владение компьютером: Платформа PC/MAC.

QuarkXPress, продукты Adobe.

 

     Область приложений описанной системы достаточно широка. Это компании, агентства, кадровые и другие службы крупных организаций, имеющие дело с потоками информации - в виде текстов на ЕЯ. Для поиска, анализа и составления отчетов требуется их автоматическая

формализация. Обычно, это одна из задач в рамках более сложных - комплексных систем.

     В настоящее время предлагаемая система реализована в виде DLL-ки компанией "Новстрим" в рамках направления "Семантика - ИТ" как одна из компонент клиент-серверной системы компании HEADHUNTER - одного из ведущих кадровых консалтинговых агентств в России. Эта система, названная LINGVO-MASTER, предоставляет возможность пользователю вводить свои резюме и автобиографические данные в произвольном виде на ЕЯ. Система LINGVO-MASTER автоматически преобразует такие резюме в формат сайта данной компании. При этом обеспечивается не более 5% шумов и потерь. Особенности ее работы можно посмотреть на сайте компании HEADHUNTER.RU В реальности данная система имеет более широкую область приложений.

    

     Литература

                  

     1. Кузнецов И.П. Семантические представления. М. Наука. 1986г. 290 с.

     2. Кузнецов И.П., Особенности обработки текстов естественного языка на основе технологии баз знаний. Сб. ИПИ РАН, Вып.13, 2003 г. стр. 241-250.

     3. Кузнецов И.П. Методы обработки сводок с выделением особенностей фигурантов и происшествий. Труды международного семинара Диалог-1999 по компьютерной лингвистике и ее приложениям. Том 2. Тарусса 1999.

     4. Kuznetsov Igor, Matskevich Andrey. System for Extracting Semantic Information from Natural Language Text. Труды международного семинара Диалог-2002 по компьютерной лингвистике и ее приложениям. Том 2. Протвино, Наука, 2002.

     5. Igor Kuznetsov, Elena Kozerenko. The system for extracting semantic information from natural language texts. Proceeding of International Conference on Machine Learning, MLMTA-03, Las Vegas US, 23-26 June 2003, p. 75-80.

     6. Кузнецов И.П. Пузанов В.В., Шарнин М.М. Система обработки декларативных структур знаний ДЕКЛАР-2. Москва, ИПИАН, 1988 г.