Главная Страница > Системы |
Система
Аналитик-1
Введение
За
последнее время одной из важнейших проблем является автоматическая обработка
текстов, получаемых пользователями, в том числе, текстов на английском языке.
Лавинообразный рост объемов документов требует дифференцированного извлечения
только такой информации, которая может заинтересовать пользователя. Речь идет о
содержательной обработке. Трудности такой обработки определяются особенностями
английского языка:
·
многозначностью
многих слов (их семантика может быть установлена только в контексте),
·
наличием больного
количества умолчаний (в том числе, в словосочетаниях),
·
наличием сложных
синтаксических конструкций, неоднозначностей и др.
В
связи с этим, уровень формализации текстов в существующих англоязычных системах
(полнотекстовых баз данных, системах на гипертекстовой основе) невысок, что
зачастую не устраивает пользователя.
Для
содержательной обработки англоязычных текстов использована разработанная в ИПИ
РАН система АНАЛИТИК-1, основанная на технологии баз знаний (БЗ) и соответствующих
методиках обработки рускоязычных текстов для решения прикладных задач.
Особенность методик - в переносе сложных этапов лингвистического анализа на
уровень обработки знаний, а также в наличии ограничений на выделяемые объекты и
глубину семантического анализа. Система базируется на
концептуально-лингвистической модели и методиках, развиваемых на протяжении
последних десяти лет в ИПИРАН [1]. Основной результат, полученный за 2003 г.,
заключается в том, что удалось адаптировать эти модели и методики к английскому
языку. Это оказалось возможным, так как формы русского языка покрывают многие
формы английского языка. Уровень полученных результатов сопоставим с передовыми
научными исследованиями за рубежом - системы FASTUS, CIRCUS и др. [2].
Разработанная система
ориентирована на обработку текстов английского языка - объявлений, сообщений о
продаже различных товаров и др. Система выделяет из текстов семантически
значимую информацию: интересующие пользователя объекты, их количественные,
качественные характеристики и связи. Например, это могут быть конкретные люди,
их адреса, телефоны, организации, а также производства с указанием их
месторасположения, состава выпускаемой продукции, их количества, качества и
т.д. Их еще называют значимыми или информационными объектами. Под связями
понимаются отношения (принадлежности, родственные), участие в одном действии,
время, место события.
Выделение
значимых объектов осуществляется лингвистическим процессором, который состоит
из оболочки, управляемой лингвистическими знаниями. Настройка на выделяемые
объекты и анализируемые формы языка осуществляется путем разработки
соответствующих лингвистических знаний. В качестве примера система была
настроена на тексты, касающихся объявлений о продаже земельных участков с
аукциона, где значимые объекты - это люди, земельные участки, адреса,
организации, цены и др. Хотя возможна настройка на другие тексты и объекты.
Ниже рассматриваются особенности работы блока морфологического анализа и
организации лингвистических знаний англоязычной системы с примерами в
упомянутой прикладной области.
Англоязычная версия
системы АНАЛИТИК-1 ориентирована на обработку больших потоков текстов с выдачей
пользователю (аналитику) необходимой информации в наиболее удобном для него
виде. Эта система решает следующие задачи:
-
автоматический ввод документов с их делением на части и лексическим анализом;
-
автоматическую формализацию текстовой информации с созданием собственной базы
знаний (БЗ), имеется в виду направленное извлечение знаний из англоязычных
текстов с ее использованием на уровне БЗ.
- составление отчетов
(рефератов), имеющих вид файлов, где в краткой форме излагается интересующая
пользователя информация - в соответствии с его шаблоном.
1. Представление знаний.
Знания
(предметные и лингвистические) в БЗ системы АНАЛИТИК-1 представляются в виде
структур, которые записываются в нотации семантических сетей, дополненных
средствами представления событийных компонент и комплексных связей. В
результате образуются расширенные семантические сети (РСС). РСС состоит из
элементарных фрагментов, имеющих произвольное количество аргументных мест (но
не более 200) и представляющих свойства, отношения, события, действия.
Множество фрагментов - это РСС [3,4].
В
простейшем случае фрагмент имеет вид N-местного предиката. Например,
DATA_(7,JANUARY,2002) - это фрагмент, представляющий дату. В тоже время
фрагмент - это более сложная конструкция, которая далеко выходит за рамки
типовых предикатов логики 1-го и 2-го порядков.
Во-первых,
в фрагментах широко используются внутрисистемные коды - это числа, к которым
добавляется знак плюс (+), когда вводится новый код, или знак минус (-), когда
используется уже введенный код. Например, "1+" и "1-" -
есть обозначение одного и того же объекта (или отношения), а "2+" и
"2-" - уже другого, и т.д. Такие числа служат для обозначения
неименованных объектов, например, порождаемых самой системой. Например, в
фрагментах
SUB(MAN,1+) NAME(JOHN,1-)
код
1+ и 1- представляют одного и того же человека по имени JOHN.
Во-вторых,
вводится специальный код фрагмента, соответствующий всей представленной в
фрагменте информации. Например, в фрагменте
ОРГ_(MORTGAGE,ELECTRONIC,REGISTRATION,SYSTEM,INC./3+) код 3+ представляет всю
организацию. Эти коды могут стоять на аргументных местах других фрагментов. Например, фрагменты
FIO(SHALMAR,REESE,DANIEL,"
"/2+)
ОРГ_(MORTGAGE,ELECTRONIC,REGISTRATION,SYSTEM,INC./3+)
GIVE(2-,3-)
представляют,
что SHALMAR REESE DANIEL (ему сопоставлен код 2+, 2-)
передал
(GIVE) данные организации
ОРГ_(MORTGAGE,ELECTRONIC,REGISTRATION,SYSTEM,INC./3+),
которой сопоставлены коды 3+, 3-. Итак, коды фрагментов необходимы для представления
комплексной информации и различных видов связей.
РСС ориентированы на
отображение возможности интеграции множества связанных объектов в один объект,
что выражается в англоязычных текстах в виде форм с причастиями (participle) и
герундиями (с окончанием ING), а также отглагольными существительными (с
окончаниями TION и др.). Понятие связи рассматривается в широком смысле. Это
могут быть не только отношения, но и зависимости. Связанными считаются также
объекты, участвующие в одном действии. Группа связанных объектов может быть
связана с другой группой, что в англоязычных текстах выражается в виде
глагольных форм со словами - причастиями, герундиями, а также существительными
- производными глаголов.
2.
Содержательные портреты документов.
Сеть
(РСС), представляющая объекты и связи какого-либо документа, образует так
называемый содержательный портрет этого документа. Такие портреты необходимы
для обеспечения быстрого и качественного поиска информации по значимым
компонентам и связям. Приведем в качестве примера типичный текст объявлений о
продажах.
Georgia, Coweta County
Under and by virtue of the Power
of Sale contained in a Security Deed given by Shalamar Reese to Mortgage
Electronic Registration Systems, Inc., dated January 7, 2002, recorded in Deed
Book 1823, Page 221, Coweta County, Georgia Records, conveying the
after-described property to secure a Note in the original principal amount of
Eighty-Nine Thousand Eight Hundred Twelve and 0/100 Dollars ($89,812.00), with
interest thereon as set forth therein, there will be sold at public outcry to
the highest bidder for cash before the courthouse door of Coweta County,
Georgia, within the legal hours of sale on the first Tuesday in April, 2003,
the following described property: Exhibit УAФ All that tract or parcel of land consisting of 0.409 acres, lying and
being in Land Lot 91 of the Fifth Land District of Coweta County ...
Его содержательный портрет имеет вид:
ДОК_(4,ENG_1.TXX,"ИНТЕРНЕТ;")
PLACE_(GEORGIA,COWETA,COUNTY/0+)
0-(4,PLACE_) CONTAIN(VIRTUE,OF,POWER,OF,SALE,SECURITY,DEED/1+) 1-(4,ACT_)
FIO(SHALMAR,REESE,DANIEL,""/2+)
2-(4,FIO)
ОРГ_(MORTGAGE,ELECTRONIC,REGISTRATION,SYSTEM,INC./3+)
3-(4,ОРГ_)
GIVE(2-,3-/4+) 4-(4,ACT_)
DATE(/5+) 5-(4,ACT_) DATA_(7,JANUARY,2002/6+) 6-(4,DATA_)
When(5-,6-/7+)
RECORD(DEED,BOOK/8+) 8-(4,ACT_) PLACE_(COWETA,COUNTY,GEORGIA/9+)
9-(4,PLACE_)
NUMBER_($9812/10+) 10-(4,NUMBER_)
NUMBER_("$89,812"/11+) 11-(4,NUMBER_)
SET(FORTH/12+) 12-(4,ACT_)
SELL(THERE,PUBLIC,OUTCRY,HIGHEST,BIDDER,CASH/13+) 13-(4,ACT_)
DATA_(1,TUESDAY,APRIL,2003/14+)
14-(4,DATA_)
SALE_ON(14-/15+) 15-(4,ACT_)
DESCRIBE(FOLLOW,PROPERTY/16+)
16-(4,ACT_)
BE(LAND,LOT/17+) 17-(4,ACT_)
PLACE_(COWETA,DISTRICT/18+)
18-(4,PLACE_)
ПРЕДЛ_(4,0-,1-,4-,5-,6-,8-,1823,PAGE,221,9-,RECORD,CONVEY,THE,
AFTER,DESCRIBE,PROPERTY,SECURE,NOTE,IN,ORIGINAL,PRINCIPAL,AMOUNT,
OF,80,10-,11-,WITH,INTEREST,THEREON,A,12-,FORTH,THEREIN,13-,BEFORE,
COURTHOUSE,DOOR,WITHIN,LEGAL,HOUR,OF,15-,16-,EXHIBIT,УAФ,ALL,
THIS,TRACT,OR,PARCEL,OF,LAND,CONSIST,OF,0.409,ACRE,LY,AND,17-,
91,OF,5,LAND,18-)
Первый фрагмент
ДОК_(4,ENG_1.TXX,"ИНТЕРНЕТ;") указывает, что содержательный портрет
построен на основе файла 'ENG_1.TXX', взятого из "ИНТЕРНЕТ". Он запомнен
в БЗ как документ под номером 4. Второй фрагмент
PLACE_(GEORGIA,COWETA,COUNTY/0+) представляет место, где происходят действия.
Добавка 0-(4,PLACE_) указывает на принадлежность этого места к документу 4.
Такие фрагменты необходимы для быстрого поиска нужных фрагментов, когда в
оперативной памяти (БЗ) находится множество содержательных портретов. Последний
фрагмент ПРЕДЛ_(4,...) содержит коды других фрагментов и представляет порядок
расположения соответствующей информации в тексте документа. По ним (заменяя
коды на соответствующие группы слов) можно восстановить текст.
Такие сети представляют
достаточно высокий уровень формализации текстов и удобны для обработки - с
помощью инструментальных средств DECL [5].
3. Лингвистический процессор
Лингвистический
процессор системы АНАЛИТИК-1 обеспечивает автоматическое построение
содержательных портретов. Он включает в себя лексикографический,
морфологический, терминологический и синтактико-семантический анализ.
Блок лексикографического
анализа обеспечивает:
-
автоматическое деление текста на самостоятельные части (например, выделение
документов из сводок)
-
определения начала и конца предложения, а также начала и конца абзаца.
Морфологический
анализ имеет целью - приведение слов в каноническую форму. Каждому слову
присваиваются признаки, которые делятся на три группы:
-
лексические (слово с большой буквы, большими буквами, с точкой на конце или это
отдельная буква и др.);
-
морфологические (грамматическая категория слова, число для существительных и
т.д.);
-
семантические (фамилия, имя, отчество и др.).
Количество
семантических признаков может увеличиваться - за счет специальных словарей -
организаций, стран, городов и др. Само слово в нормальной форме тоже считается
признаком.
Морфологический
анализ необходим, чтобы избавиться от различных форм написания слов, и
облегчает поиск.
Терминологический
анализ обеспечивает выделение терминов, а также синонимичные преобразования.
Синтактико-семантический
анализ осуществляется специальными контекстными правилами (см. п.6) и служит
для выделения из документа значимых компонент и связей.
4. Блок
морфологического анализа.
Блок
морфологического анализа управляется лингвистичкскими (морфологическими)
знаниями, имеющими вид фрагментов РСС, и обеспечивает присвоение слову признаков,
а также приведение словоформ одного и того же слова к одному виду -
канноническому (для существительных - это ед. число, для глаголов - инфинитив и
т.д.)
Результатом
работы блока морфологического анализа является семантическая сеть (РСС),
представляющая пространственную структуру текста. В ней представлены слова в
нормальной форме с их признаками и указанием их последовательности. Последующая
обработка сводится к преобразованию сетей на основе заданных правил.
Морфологический
анализа сводится к делению слова на части: КОРЕНЬ/ОКОНЧАНИЕ или
КОРЕНЬ/СУФФИКС/ОКОНЧАНИЕ. Для выделения окончаний используются фрагменты:
M_OKON_S("IES",3,MANY," "/1+) 1-("Y")
M_OKON_S("OES",3,MANY,"
"/1+) 1-("O")
M_OKON_S("AES",3,MANY,"
"/1+) 1-("A")
M_OKON_S("YES",3,MANY,"
"/1+) 1-("Y")
M_OKON_S("S",-1,MANY," ")
Фрагмент
M_OKON_S("IES",3,MANY," "/1+) 1-("Y") указывает
на необходимость отделения от слова трех последних букв. И если это
"IES", то делается замена "IES" -> "Y".
Например, слово FLIES заменяется на FLY. Или же просто отнимается окончание
"S" и слову присваивается признак MANY (см. последний фрагмент).
Для анализа глаголов
дополнительно используются фрагменты:
M_OKON("ED",2,VERB,PAST_)
M_OKON("ING",3,PRICH,"
")
M_OKON("IED",3,VERB,PAST_/1+) 1-("Y")
Отделяются
окончания ED ING и слову присваиваются соответстующие признаки VERB, PAST_,
PRICH, а окочание "IED" заменяется на "Y".
Для выделения суффиксов
используются фрагменты вида:
M_SUF("ION",3,VERB,OBJ)
где
"ION" - суффикс, 3 - сколько букв в суффиксе, VERB -
часть
речи без суффикса (глагол), OBJ - формируемый признак.
В
каннонической форме суффиксы не отделяются от корней. Они служат только для
выявления части речи и присвоения слову признаков.
Другие примеры
фрагментов, используемых для выявления суффиксов:
M_SUF("LY",2,"
",ADV) = ADV - наречие ADVERB =
M_SUF("OR",2,VERB,OBJ)
M_SUF("IER",3,VERB,OBJ/1+)
1-("Y") = добавляется "Y" =
M_SUF("ER",2,VERB,OBJ)
M_SUF("ERY",3,VERB,OBJ)
= COOK - готовить, COOKERY - стряпня =
M_SUF("IVE",3,VERB,ADJ)
M_SUF("IST",3,ADJ,OBJ)
M_SUF("MENT",4,VERB,OBJ)
= Суффикс MENT преобр. VERB -> OBJ =
M_SUF("ABLE",4," ",OBJ) ....
Будем
называть корнем слово, оставшееся после отделения окончаний
"S", "ED",
"ING" и др. По корням также определяется часть речи. Для
этого служат фрагменты
вида:
M_ROOT("DECID","DECIDE",VERB," ")
где
"DECID"- корень, "DECIDE" - слово в канноническом виде,
VERB -
формируемый признак (их
может быть два).
С
помощью таких фрагментов задаются все глаголы, заканчивающиеся на "E"
и "Y". Иначе их невозможно привести к канноническому виду, так как
нет единого правила, указывающего, что отделять "ED" или
"D", например, DECID/ED DECIDE/D или BLOCK/ED BLOCKE/D.
Другие примеры:
M_ROOT("DESCRIB","DESCRIBE",VERB,"
")
M_ROOT("DESIGNAT","DESIGNATE",VERB,"
")
M_ROOT("DECLAR","DECLARE",VERB,"
")
M_ROOT("DISCLOS","DISCLOSE",VERB,"
")
M_ROOT("DISTRIBUT","DISTRIBUTE",VERB,"
")
M_ROOT("EXECUT","EXECUTE",VERB,"
")
M_ROOT("INCLUD","INCLUDE",VERB,"
")
M_ROOT("INCORPORAT","INCORPORATE",VERB,"
")
M_ROOT("HAV","HAVE",VERB,"
")
M_ROOT("HOP","HOPE",VERB,"
")
M_ROOT("LIV","LIVE",VERB,"
")
M_ROOT("PAS","PASS",VERB,OBJ)
M_ROOT("PURCHAS","PURCHASE",VERB," ") ...
Для
выявления частей речи и семантических признаков (имен, фамилий и др.)
используются фрагменты вида:
M_WORD("OF","OF",PREP," ") == PREP - предлог ==
M_WORD("BETWEEN","BETWEEN",PREP," ") ....
M_WORD("I","I",PRON_1,"
") = PRON_1 - местоимения личные =
M_WORD("ME","I",PRON_1," ") = Преобразование "ME" -> "I" =
M_WORD("MY","I",PRON_1,ADJ)
= Формируется призак ADJ - прилагательное = ....
M_WORD("FRIEND","FRIEND",MAN," ") = MAN - человек =
M_WORD("MATHER","MATHER",RELL," ") = RELL - родственное отношение =
M_WORD("FATHER","FATHER",RELL," ") ...
M_WORD("ANNE","ANNE",NAME,"
") = NAME - имя =
M_WORD("CALLIE","CALLIE",NAME,"
") M_WORD("DANIEL","DANIEL",NAME," ") ...
К артиклям добавляется
признак THE:
M_WORD("THE","THE","
"," ") M_WORD("A","A",THE," ")
M_WORD("AN","A",THE," ")
Такие же фрагменты служат
для выявления неправильных глаголов:
M_WORD("FIND","FIND",VERB,"
")
M_WORD("FOUND","FIND",VERB,PAST_)
В
поседнем случае заменяется "FOUND" -> "FIND" и
добавляются признаки глагола VERB и прошедшего времени PAST_.
Другие примеры:
M_WORD("DRIVE","DRIVE",VERB,"
") M_WORD("DROVE","DRIVE",VERB,PAST)
M_WORD("DRIVEN","DRIVE",VERB,PAST1)
M_ROOT("DRIV","DRIVE",VERB," ")
5.
Терминологический анализ и синонимичные преобразования.
Терминологический
анализ имеет целью - синонимичные преобразования, расшифровку сокращений,
выделение терминов. Для этого используются фрагменты следующего вида:
TERMIN(<результ.слово>,<слово1>,<слово2>)
или
TERMIN(<результ.слово>,<слово1>,<слово2>,<слово3>),
где
<слово1>,... это может быть - отдельное слово, признак, а также
И-ИЛИ
графы. Фрагменты типа "ИЛИ" представляется STR_OR(...), где
перечисляются факультативные слова или их признаки. Фрагменты типа
"И" представляется STR_AND(...), где предполагается обязательность
слов с указанными признаками.
Например,
TERMIN(WHERE,HOW,FAR) обеспечивает преобразование "HOW
FAR"
-> "WHERE".
Другой пример:
TERMIN_('P.O.','P.','O.')
= склеиваются буквы "P." и "O." =
Более сложный случай:
TERMIN_(1,NUM,YEAR,OLD/1+) 1-("y.old",ADD_).
Выявляются
словосочетания, где вначале - число (слово с признаком
NUM),
затем слова "YEAR" и "OLD". Они пребразуются в число (1), к
которому добавляется признак "y.old". Например, такое правило будет
применимо к предложению "... mr. MILLS, 50 years old, ...".
Для терминов может быть
задан допустимый контекст - слова или их признаки, стоящие слева и справа.
Может быть также указан недопустимый контекст - слова или их признаки, которых
не должно быть слева или справа. В результате удается выделять термины и
словосочетания, значения которых зависят от контекста.
Для представления
синонимов используются многоместные фрагменты:
SYNON(<результ.слово>,<исх.слово>
... <исх.слово>).
Например,
SYNON(GRAPH,DIAGRAMM) - слово DIAGRAMM должно быть заменено на GRAPH.
Зти же фрагменты служат
для указания сокращений:
SYNON(CORP.,CORPORATION) SYNON(COMP.,COMPANY)
Многие синонимы носят
условный характер. Для них указывается допустимый или недопустимый контекст.
Например, в приведенном выше случае недопустимы замены для слов - фамилий,
кличек, названий улиц и др.
6. Контекстные
правила
Блок
синтактико-семантического анализа выполняет следующие функции:
-
по признакам и контексту выделяет информационные или значимые объекты (ФИО
людей, адреса, организации, номера машин и др.);
-
для каждого выявленного значимого объекта находит в документе связанную
информацию (для лиц это их год рождения, пол, адрес и др.).
Для этого используются
"контекстные" правила.
Многие
информационные объекты (адреса, номера машин, организации и др.) - это наборы
слов, которые грамматически никак не согласованы. Их выделение может
осуществляться по чисто формальным принципам. Например, адрес может
рассматриваться как набор буквосочетаний 'P.O.', BOX, ST..., слов с большой
буквы и чисел. Каждый такой набор может иметь свои границы и недопустимые
компоненты. Например, в адресах не может быть ФИО, глаголов и т.д. Выделение
таких наборов слов (описаний объектов) основано на использовании контекстных
правил следующего вида:
CONTEXT(<слово1>,<слово2>,...,<словоN>)
-> <результ. фрагмент>
где
<слово1>,... это может быть - отдельное слово, признак, а также
И-ИЛИ
графы. Для этих правил указывается, с какой позиции начинать применение, а также
допустимый или недопустимый контекст. Далее, может быть указано, слово с какими
признаками не должно стоять на той или другой позиции. Это обеспечивает
дифференцированное применение правил.
Такие
правила выделяют из текста группы слов (по их признакам), описывающих
какой-либо объект, и заменяют их на одно слово, с которым связывается
соответствующий фрагмент семантической сети, например, представляющий адрес.
Cинтактико-семантический
анализ предложений с выделением словосочетаний и анализом форм осуществляется
на основе контекстных правил, которые применяются в определенной
последовательности. Вначале выделяются объекты, затем их признаки,
словосочетания, и наконец, глагольные формы. По мере применения таких правил
строится семантическая сеть - содержательный портрет документа.
Применение
каждого правила - это последовательность действий, основаггых на анализе слов и
их признаков. Например, рассмотрим, как применяется правило GGG~1, выделяющее
словосочетания с предлогом OF:
==== GGG~1: Словосоч. <OBJ> OF <OBJ>
====
MUSTBE(GGG~1,2)
STR_OR(OBJ,ENGL/1+)
CONTEXT(1-,OF,1-/GGG~1)
WORD_C(1,OF,3/3+) P_P(GGG~1,3-) 3-(OBJ,ADD_)
Это правило осуществляет
преобразования:
СЛОВО
с признаком объект OBJ или англ. СЛОВО (с признаком ENGL) + OF +
СЛОВО с признаком объект
OBJ или англ. СЛОВО -> <комбинация слов>
Фрагмент
MUSTBE указывает, что применять правило GGG~1 нужно с 2-ой позиции, т.е. искать
слова OF. Фрагмент P_P отделяет левую часть от правой ( -> ), а WORD_C -
указывает, что слова на 1-й и 3-й позициях должны быть склеены в комбинацию
слов, которое в дальнейшем будет рассматриваться как одно слово с признаком
OBJ.
Это пример наиболее
простого правила. К таким правилам добавляются фрагменты, указывающие на
контекст, на возможность каких-либо символов внутри и др. Специальные правила
осуществляют идентификацию объектов, например, на основе местоимений или
кратких описаний (по имени восстанавливается фамилия, если они где-нибудь
упоминались вместе). И многое другое, что необходимо для работы с естественным
языком.
Каждое контекстное
правило - это семантическая сеть (PCC). Все лингвистические знания записываются
в виде PCC. Над ними работают продукции языка DECL (программа), которые
применяют эти правила и играют роль пустой лингвистической оболочки,
поддерживающей язык записи лингвистических знаний - PCC. Как показывает опыт,
такую оболочку можно настраивать на различные языки, т.е. строить различные
лингвистические процессоры.
6.1. Применение контекстных правил
Контекстные
правила применяются в строго определенной последовательности - каждое на своем
уровне. Например, при обработке объявлений вначале выделяются информационные
объекты - деньги с их колличеством, даты, места событий др. Они сворачиваются и
как бы прдставляют единое слово со своими признаками. Это необходимо, чтобы
облегчить последующий анализ. Иначе слова, составляющие эти объекты, могут
захватываться другими правилами и создавать шумы.
Далее
начинается выделение фигурантов. Для этого вводится множество правил. Одни
начинают свое применение с поиска имен, фамилий (MUSTBE), другие - с поиска
года рождения, третьи - с инициалов. В результате минимизируются потери в
случаях, когда блок морфологического анализа не дает необходимых признаков для
каких-либо слов (что это имена или фамилии и т.д.). Затем анализируются
словосочетания, и наконец, глагольные формы. По мере применения таких правил
строится семантическая сеть - содержательный портрет документа. Ниже приведен
пример представления уровней, определяющих порядок применения правил.
= Уровни =
LEVEL(LEVEL_1,LEVEL_2,LEVEL_3,LEVEL_4,LEVEL_5)
LEVEL_1(MORF_ENG)
= Выявление частей речи англ. слов =
LEVEL_1(MORF) = Синонимы,
термины =
LEVEL_2(NNN~1,NNN~2)
= Выявление количества денег =
LEVEL_2(TTT~1,TTT~2,TTT~3,TTT~4)
= Выделение дат =
LEVEL_2(PPP~1,PPP~2)
= Выделение мест - PLACE_ =
LEVEL_2(FFF~1,FFF~2,FFF~3,FFF~4)
= Выявление лиц =
........................
LEVEL_3(GGG~1,GGG~2,GGG~3,GGG~4,GGG~5)
== Выявление словосочетаний ==
MUSTBE(GGG~2,1)
= Указывает, за что цепляться при применении =
STR_OR(OBJ,MAN,PLACE,TIME/2+)
CONTEXT(ADJ,2-/GGG~2)
WORD_C(1,2/3+) P_P(GGG~2,3-) 3-(OBJ,ADD_)
........................
В
фигурных скобках даны комментарии. В конце приведен пример правила, выявляющего
словосочетания типа ПРИЛАГАТЕЛЬНОЕ (слово с признаком ADJ) - ОБЪЕКТ (OBJ) или
ЧЕЛОВЕК (MAN) или МЕСТО (PLACE) ... Такие словосочетания сворачиваются в
комбинацию слов (WORD_C), которой присваивается признак OBJ.
В системе имеются
контекстные правила, которые обеспечивают полный разбор предложений. Но в
отличие от типовых грамматик параллельно обеспечивается выделение значимых
(информационных) объектов, в том числе таких, в которых слова никак не
согласованы между собой, например, адресов, машин с указанием их номеров и т.д.
7.
Аналитические задачи.
Формирование
справок, аналитических отчетов на основе содержимого БЗ обеспечивается
специализированными программами на языке DECL. Таким способом система
АНАЛИТИК-1 может быть настроена на различные приложения в различных областях -
где требуется дифференцированная обработка больших потоков текстовых
документов. Еще одно приложение - анализ документов, их автоматическая
формализация с заполнением полей какой-либо базы данных. В настоящее время на
базе лингвистической оболочки разработаны знания и программы, обеспечивающие
выделение из текстов английского языка информации в соответствии с шаблонами,
заданными пользователем. Например, ШТАТ - ВРЕМЯ ПОСТУПЛЕНИЯ ЗАЯВКИ -
СОБСТВЕННИК - ЦЕНА - МЕСТОРАСПОЛОЖЕНИЕ - ДАТА ПРОДАЖ - СВЯЗЬ - ОСОБЕННОСТИ
УЧАСТКА.
Исходный материал -
текстовые файлы, содежащие англоязычные тексты (они имеют вид - см.
вышеприведенный пример части текста).
Результат:
Document 1. File ENG_1.TXX
State, County - GEORGIA COWETA COUNTY
Time of booking - 7 JANUARY 2002
Name of Owner - SHALMAR REESE DANIEL
Price - $9812
Address - 95 ALDER DRIVE NEWNAN
GEORGIA 30263
Time of sale - 1 TUESDAY APRIL
2003
E-mail - WWW.FORECLOSUREHOTLINE.NET
Property - EXHIBIT УAФ ALL THIS TRACT OR PARCEL OF LAND
CONSIST OF 0.409 ACRE LY AND BE LAND LOT 91 OF 5 LAND
COUNTY GEORGIA SHOW BY PLAT OF SURVEY
BY REGISTER LAND
DATE SURVEYOR AND RECORD SURVEYOR
PLAT BOOK 60 PAGE 79
OFFICE OF CLERK SUPERIOR COURT BE REFERENCE
Document 2. File ENG_2.TXX
State, County - GEORGIA COWETA COUNTY
Time of booking - 15 MAY 2002
Name of Owner - WILLIE AMEY DENE
Price - $57,600,
Address - 5 WEST PARK COURT
NEWNAN GEORGIA 30263
Time of sale - 1 TUESDAY APRIL
2003
Property - ALL THIS TRACT OR
PARCEL OF LAND LY AND BE CITY AND BE LOT 348 OF 3 SECTION UNIT 4
WESTGATE PARK SUBDIVISION RECORD
SHOW PLAT PLAT BOOK 16 PAGE
111 RECORD BE REFERENCE WHAT PLAT
HEREBY HAVE PARTICULAR
DESCRIPTION
Document 3. File ENG_3.TXX
State, County - GEORGIA STATE COWETA COUNTY
Time of booking - 6 JANUARY 1998
Name of Owner - ANTHONY D. BERRY
Price - $12,450.53
Address - 79 SAVANNAH STREET
NEWNAN GEORGIA 30263
Time of sale - 1 TUESDAY APRIL
2003
Property - ALL THIS TRACT OR PARCEL OF LAND LY AND BE
CITY OF NEWNAN KNOW 79 SAVANNAH
STREET ACCORD PRESENT SYSTEM
NUMBER HOUSE HOUSE AND LOT IN SAY
CITY AND DESCRIBE MORE
FOLLOW BEGINN AT POINT ON
SOUTHERLY SIDE OF SAVANNAH
STREET WHAT SAY BE POINT NORTHWEST CORNER OF PROPERTY
Document 4. File ENG_4.TXX
State, County - GEORGIA STATE COWETA COUNTY
Time of booking - 13 JUNE 2002
Name of Owner - TOM SHANE PAYTON
Address - P.O. NEWNAN GEORGIA 30264
Time of sale - 1 TUESDAY APRIL
Property - PROPERTY TO WIT TRACT 1 ALL THIS TRACT OR
PARCEL
OF LAND LY AND BE AND SHOW LOT
280 SECTION 2 ENTITL PLAT
PREPAR DATE PIEDMONT ENGINEER
& ARCHITECT OCTOBER
1970 WHAT PLAT BE OF RECORD IN
CLERK S OFFICE
SUPERIOR COURT IN PLAT BOOK 14
FOLIO 229 AND 23
1 SAY LOT HAVE LOT METE BIND LOT AND DIMENSION .....
Заключение
Последующее
развитие системы, во-первых, связано с анализом различных текстов в том числе,
автоматически считываемых из сети ИНТЕРНЕТ. Во-вторых, требуется решение других
задач, напрмер, выявление чрезвычайных и недопустимых ситуаций (аварий на
промышленных объектах, пропаганды наркотиков и т.д.). Для этого требуется
дальнейшее развитие возможностей блока морфологического анализа (работа с каталогами
типовых объектов и др.), а также лингвистической оболочки.