Главная Страница > Публикации |
Автоматическое
формирование электронных энциклопедий и справочных пособий по информации из
сети Интернет
Кузнецов Игорь Петрович, Шарнин Михаил Михайлович
Развитие сети Интернет приводит к громадным объемам
информации, которые выдаются пользователям по их запросам к существующим
поисковым машинам GOOGLE, ЯНДЕКС и др. Для эффективной работы с такими машинами
пользователю нужно знать ключевые слова и ключевые фразы, относящиеся к каждому
интересующему его вопросу и дающие наиболее точный ответ. В
связи с большим разнообразием вопросов, интересующих пользователя, попытки
самостоятельного нахождения этих ключевых слов и фраз методом проб и ошибок
(путем многократного обращения к поисковым машинам с анализом ответов)
приводят к большим трудозатратам и разочарованию от большого количества
ненужной информации или ее неполноты. Для массового пользователя эти проблемы
умножаются многократно.
Отсюда возникает задача систематизации запросов,
отражающих интересы пользователей, создания тематических каталогов и статей, с
которыми связываются оптимальные запросы. Требуется создание специальных
средств, позволяющих пользователю разобраться в море информации и с наименьшими
трудозатратами найти то, что его интересует. Роль таких средств играют
электронные энциклопедии.
Энциклопедии традиционно играют важную роль при изучении
нового материала. Однако, их создание в электронном виде - это громадный труд,
который предполагает не просто ввод соответствующего материала в компьютер, но
и его дополнительную систематизацию: создание тематических каталогов для
выделения основных классов и подклассов, определение основных понятий,
построение гиперссылок для связи статей энциклопедии между собой, а также
ссылок к первоисточникам. Следует также принимать во внимание динамичность
циркулирующей в Интернет информации: появление все новых сведений, которые
нужно учитывать в энциклопедиях.
В настоящее время большинство крупнейших электронных
энциклопедий, работающих в режиме "on-line",
создавалось на основе печатных изданий универсальных энциклопедий: Большой Советской Энциклопедии, Британской Энциклопедии (США и
Великобритания), "Большой Брокгауз" (ФРГ), "Большой Ларусс"
(Франция) и др. Создание подобных энциклопедий - громадный труд многих людей.
В связи со сказанным глобальной задачей на текущий момент
является разработка методов и программных средств автоматизации наиболее
трудоемких этапов формирования электронных энциклопедий по информации из Интернет. Такое формирование требует
элементов интеллектуальной деятельности: для выбора предмета описания,
составления статей, их названий, поиска определений и др. Развитие концепций
электронных энциклопедий приводит к справочным системам более общего плана,
обеспечивающих сбор сведений и систематизированное представление информации об
различных интересующих пользователя объектах:
- о
политических деятелях, деятелях науки, культуры;
-
об организациях, компаниях;
-
о событиях (например, забастовках, их причинах, месте и времени);
- о товарах и объектах определенного класса (например,
вид топлива, объем добычи, регион) и др.
При построении таких систем возникают
много общих задач, что и для электронных энциклопедий. Только вместо
статей и их названий будут другого сорта объекты. В настоящее время решение
обсуждаемых задач становится реальным в связи с существенным наработками в
областях, связанных с построением различных классов интеллектуальных систем,
лингвистических процессоров, баз знаний, статистической обработки языковых
компонент. Данная работа основывается на опыте создания электронной
энциклопедии и посвящена направлениям развития методик для решения упомянутой
задачи. Вначале остановимся на предмете исследования - что представляет
из себя энциклопедия, какой она должна быть.
1. Особенности
энциклопедического материала.
Энциклопедия - справочное пособие по интересующим
пользователей объектам или событиям в форме, удобной для восприятия.
Энциклопедия состоит из статей и их названий. Названия следуют из предмета
описания, а статьи дают их краткое изложение. Удобство восприятия определяется
умелым выбором предметов описания, их названий и способов изложения
соответствующих статей.
Как правило, предмет описания должен быть связан с
определенной сферой человеческой деятельности. Например, поддержание здоровья и
все, что с этим связано, является предметом Медицинской энциклопедии. Любовь к
собакам, их выбор и содержание является предметом Энциклопедии по породам
собак. Энциклопедии, связанные с другими сферами человеческой деятельности: по
компьютерам, их программному обеспечению (редакторам, базам данных,...), Энциклопедии по праву и т.д. Это тематические или
специализированные энциклопедии. Допускаются более общие предметы описания в
Универсальных энциклопедиях или Мегаэнциклопедиях. Их
составляют так, чтобы они включали в себя общие сведения из специализированных
энциклопедий. Из них выбираются статьи, понятные большему кругу пользователей.
Степень специализации любой энциклопедии определяется
кругом пользователей, на которых она ориентирована. Для врачей требуются более
глубокие знания, чем для других людей. То же самое касается специалистов в
области компьютеров, собак и т.д. Понятно, что для врача не нужны общие
сведения о болезнях, а для больных - высокая степень специализации при описании
болезней.
Выбор названий статей тесно связан с предметом энциклопедии,
т.е. соответствующей сферой человеческой деятельности. Например, для
поддержания здоровья важны знания о болезнях, их возбудителях, методах лечения,
лекарственных препаратах и др. В тоже время, болезни, их классификация
предполагает знания о строении человеческого тела, органах. Последние
являются необходимыми, как бы первородными. Далее, методы лечения предполагают
использование определенных инструментов, оборудования. Протекание болезни имеет
свои характеристики и т.д. Все это составляет значимую информацию, включающую
значимые объекты, события и процессы. Отметим, что не всякая значимая
информация должна составлять названия статей. Требуется ее отбор.
Аналогично, настройка, ремонт компьютеров, исправление
системных и других ошибок невозможна без знания основных устройств и
программных компонент и т.д.
В большинстве случаев названия статей специализированных
энциклопедий - это термины из соответствующей предметной области. Статьи
включают определения этих терминов и их описание. Статьи энциклопедии, как
правило, строятся по определенным схемам, привычным для человека. Схема состоит
из разделов, которые следуют в определенном порядке. Например, при описании
болезни типичная схема выглядит следующим образом:
-
определение болезни ("колит - воспаление толстой кишки");
-
виды болезней ("колит бывает острый и хронический");
-
симптомы и проявления (кто вызывает, как протекает);
-
профилактика;
-
лечение.
Каждый раздел может содержать одно или множество
предложений. По другому выглядит схема описания
органов человеческого тела, лекарственных препаратов. При описании пород собак
вначале указывается общий класс (если он есть), затем - внешние данные
(экстерьер), затем происхождение и остальные сведения.
Таким образом, схемы описания статей привязаны к классам
объектов. Общие схемы встречаются не часто. Схема - это результат традиции,
сложившийся за многие годы при описании тех или иных объектов.
Электронные энциклопедии
имеют аналогичную структуру.
2. Особенности
автоматизации.
Задача в общем виде выглядит следующим образом. На входе
- поток документов из Интернет
(всех или относящихся к определенной предметной области). На выходе -
электронная энциклопедия, состоящая из кратких статей с их названиями, а также
гиперссылками между статьями (если в них есть названия других статей) и
гиперссылками к первоисточникам - документам Интернет. Дополнительно
электронная энциклопедия должна включать главное меню, включающие основные
разделы (статьи), а также различные классификаторы и внутреннюю поисковую
систему, обеспечивающую быстрый выход к конкретным темам, составляющим
предметную область.
Конечно, автоматизировать все эти процессы не
представляется возможным. Составление главного меню (и тем более, средств
поиска) - удел человека. Компьютер может помочь в подборе материала статей и
выборе их значимых компонент.
Будем различать два этапа: обучения и работы. Этап
обучения, когда системе дается обучающая выборка (документы из
Интернет) с указанием в ней статей, который должна
выделять система. Например, это могут быть виды болезней, симптомы, тексты
описания, относящихся к профилактике заболеваний и др. Система должна
выработать решающие правила, обеспечивающие на этапе работы выделение этих
статей на других документах. Такие правила основаны на статистической обработке
с выявлением ключевых слов и типовых контекстов (значимых компонент),
обеспечивающих выделение статей.
Этап обучения позволяет частично или полностью
автоматизировать деятельность разработчика по выявлению данных, необходимых для
работы системы. Выявление ключевых слов и контекстов требует использование
блоков анализа естественного языка (ЕЯ): морфологического и
синтактико-семантического. Первый блок преобразует словоформы (СТОЛ, СТОЛА,
СТОЛУ,...) к единому виду (СТОЛ) и особенно важен для
языков, где слова склоняются по падежам и родам, т.е. для русского языка. Без
такого преобразования поиск в документах однотипных компонент становится крайне
трудным. Второй блок выделяет словосочетания (они также могут быть названиями
статей) и глагольные формы, которые в большинстве случаев определяют контекст.
Оба эти блока составляют лингвистический процессор, осуществляющий анализ
предложений естественного языка (ЕЯ) и играющий важную
в системе.
При создания электронной
энциклопедии важными являются следующие факторы:
- качество создаваемой энциклопедии (определяется
близостью к привычным энциклопедиям);
- сложность подготовительного этапа, включающего в себя
создание и ввод исходных материалов (словарей, каталогов и др.), необходимых
для работы системы, а также обучение системы выявлению статей;
-
сложность программирования.
Упрощение второго и третьего факторов могут сильно
сказаться на качестве. В тоже время, попытка автоматически создать привычную человеку энциклопедию потребует реализации сложных
видов интеллектуальной деятельности человека, что сильно усложнит процесс
программирования. Здесь требуется выбор "золотой" середины. Для ее
достижения будем следовать схеме, когда разработка ведется по этапам, когда
вначале разрабатывается сравнительно простая система с последующим наращиванием
ее возможностей для повышения качества работы.
3. Задача отбора
документов.
Вначале осуществляется отбор материала (документов) из Интернет, на основе которых
составляется тематическая энциклопедия. Для этого предлагаются следующие методики:
- Отбор по специальным запросам, составленным человеком и
определяющих тематическую направленность создаваемой
энциклопедии.
-
Путем обработки документов из Интернет
с выделением значимой информации (названий статей, терминов предметной области)
и их статистической оценкой. Документ, в котором есть значимая информация или
ее количество превышает порог, отбирается для последующей обработки. В
последнем случае в качестве данных, представляющих значимую информацию, могут
быть использованы: словари названий статей или терминов предметной области, а
также ключевые слова и словосочетания, выявленные в процессе обучения.
Задача
обучения формулируются следующим образом. В качестве обучающей выборки берется
набор документов, заведомо относящихся к тематической энциклопедии. Система
должна найти компоненты (слова, словосочетания), отличающие эти документы от
других.
4. Методики
составления названий статей.
Выделяются термины (слова или словосочетания) - кандидаты
в качестве названий новых статей тематической энциклопедии. Задача требует
использования контекста и результатов статистической обработки. Здесь
предлагаются следующие методики.
Методика 1.
Считается, что наиболее часто встречающиеся слова или словосочетания, не
входящие в список общеупотребительных слов, должны быть названиями статей. Эта
методика наиболее проста для реализации, но требует трудоемкой работы по
постоянному наращиванию упомянутого списка. Он ориентирован на тематическую
направленность энциклопедии и никогда не будет полным. Высокого качества при
составлении энциклопедии здесь добиться не удастся.
Методика 2.
Использование определений для выявления понятий и терминов - названий будущих
статей. Любая статья энциклопедии, как правило, начинается с определения
термина - ее названия. Поиск таких определений важен не только с точки зрения
выявления новых статей и их названий, но и для составления новых статей, где
определения играют важную роль для их понимания. Реализация методики требует
знания типовых контекстов, с помощью которых вводятся новые понятия и даются их
определения. Это могут быть формы: <новая статья> - ЭТО <основной
термин известной статьи> + <предложение, уточняющее этот термин>.
Разнообразие таких форм и их семантическое наполнение затрудняет использование
этой методики. Требуется семантико-ориентированный лингвистический процессор,
осуществляющий анализ предложений ЕЯ с выявлением контекстов: по окружающим
словам, а также по структуре предложения.
Методика 3.
Использование контекстов для выявления названий будущих статей. Контекст может
задаваться в рамках словосочетаний и глагольных форм. Например, для выделения
названий болезней могут использоваться прилагательные типа: <прил. ??>
БОЛЕЗНЬ, ХРОНИЧЕСКИЙ <сущ. ??>, ИНФЕКЦИОННЫЙ <сущ. ??> с
перестановкой слов (ГИПЕРТОНИЧЕСКАЯ БОЛЕЗНЬ, ЖЕЛТУХА ИНФЕКЦИОННАЯ, ХРОНИЧЕСКИЙ
НАСМОРК,...). Здесь <прил. ??> - прилагательное,
<сущ. ??> - существительное, а ?? говорят, что это может быть новым
названием. Реже используются формы родительного падежа: ВОСПАЛЕНИЕ <часть
тела ??> и др. (ВОСПАЛЕНИЕ НАДКОСТНИЦЫ,..).
В
качестве контекста могут использоваться и глагольные формы, например,
<значимый термин> ВЛИЯЕТ НА <сущ.??>,
<сущ.??> ВЫЗЫВАЕТСЯ <значимый термин> и др.
Такие контексты обычно выявляются человеком путем
исследования текстов описания болезней.
Методика 4.
Использование человеко-машинных систем, в которых названия будущих статей и их
содержимое задается самими пользователями Интернет-энциклопедии.
Этот подход приводит к необходимости разработки сложной системы для поддержки
совместной работы большого числа пользователей. Такая система должна уметь
оценивать вклад каждого пользователя, поддерживать системы голосования и
различные уровни полномочий при редактировании и разрешении конфликтов.
5. Подбор материала и
составление статей энциклопедии.
Подбор материала для статей энциклопедии - важная задача,
которая решается после выделения названий статей и их основных терминов в
соответствии со схемой описания статей. Такие схемы даются из-вне. Для подбора материалов из документов Интернет
выделяются предложения, в которых встречается данный термин.
Вначале в выделенных предложениях осуществляется поиск
определений. Это очень важный момент. Без определения (например, если убрать
его из какой-либо статьи классической энциклопедии) понимание самой статьи
сильно затрудняется. Восстановление сущности соответствующего понятия по
контексту из других предложений требует высокой умственной напряженности. Далее
в соответствии со схемой осуществляется подбор материала для других разделов,
например, описывающих виды болезней, симптомы, их проявления и др. Выбираются
предложения определенных конструкций с выделенным термином - названием статьи.
Для этого используются контексты. Например, для выявления видов болезней можно
использовать контексты:
<<прил.>
<болезнь> ??>, <болезнь> БЫВАЕТ
<??>,<??>,...,
где ?? - виды болезней).
<новое понятие> - ЭТО <известное понятие> +
<предложение, сужающее объем понятия>.
Разработка таких контекстов, обеспечивающих подбор
информации для определенных разделов статей, - задача лингвистического
обеспечения. Она может быть частично автоматизирована использованием следующих
методик обучения.
В простейшем случае алгоритм подбора информации может
быть основан на подсчете весов предложений. Из правильно составленных статей
(представляющих обучающую выборку) берутся разделы одного типа и выделяются
слова, типичные для текстов описания разделов. Такие слова должны чаще
встречаться в данных разделах и реже в других. Подбор предложений
осуществляется по максимальному количеству (и весу) входящих в них названий
других статей и слов, типичных для текстов описания раздела.
При подборе материала следует учитывать два важных
момента. Во-первых, в поясняющих предложениях или в предложениях с
анафорическими ссылками (местоимениями) названий статей может не быть. Поэтому
после выбора очередного предложения нужно проводить анализ последующих
предложений. Если они уточняют или поясняют первое, то они отбираться вместе с
ним. Во-вторых, в статьях энциклопедии могут быть разделы, в которых названия
статей встречаются крайне редко. Например, в разделе "профилактика
заболеваний" очень редко упоминается вид болезни. Речь идет о другом:
режиме дня, процедурах и т.д. Подбор предложений для таких разделов достаточно
труден с точки зрения автоматизации.
После подбора предложений в соответствии со схемой
составляется статья энциклопедии. Схема определяет последовательность разделов.
В статью вставляются только разделы с достаточным информационным насыщением -
для которых подобраны предложения и они имеют
достаточно большой вес. В каждом разделе предложения упорядочиваются по
следующему критерию: в предложении должно быть как можно меньше новых терминов,
т.е. которых не было в предыдущих предложениях. Если таких терминов много, то
понимание предложения сильно затрудняется. Из предложений автоматически
формируется статья на языке HTML. Для этого с учетом названия статьи
добавляется соответствующая "шапка". Если в предложении встречается
название другой статьи, то формируется гиперссылка. Для этого название автоматически
обрамляется соответствующими значками (символами и тегами) - в рамках
синтаксиса языка HTML.
6. Энциклопедия
ключевых слов.
В 2002 году М. Шарниным создана 1-я версия электронной
энциклопедии, получившей название "Энциклопедия ключевых слов". В ней
нашли свое применение многие из описанных выше методик. Энциклопедия
функционирует на веб-сайте www.keywen.com. Она
постоянно растет и в настоящее время содержит более 70 тысяч статей на разные
темы и на различных языках. Основная масса статей - английские,
но имеются также более 3800 немецких и 1300 итальянских статей. Энциклопедия
ключевых слов признана в мире интернета. Ежедневно несколько тысяч человек
свободно пользуются ее информацией.
Каждая
статья Энциклопедии состоит из ключевых предложений
(фраз).
Каждое из них содержит одно или несколько ключевых слов. Такие
фразы
отыскиваются в интернете специальной программой, которая
называется Keywen
Encyclopedia Bot. В настоящее время
Энциклопедия
содержит
более 3 миллионов ключевых фраз. Основная масса статей
Энциклопедии
начинается с раздела, в котором приводятся определения термина, вошедшего в
название статьи. Наличие раздела определений позволяет быстро понять о чем идет речь в статье. При необходимости более
углубленного изучения данной темы, можно воспользоваться ссылками на Интернет
сайты. Такими ссылками снабжена каждая фраза в энциклопедии.
Каждая статья Энциклопедии содержит список наиболее
важных ключевых слов, относящихся к теме статьи. Для каждого такого ключевого
слова в статье имеется раздел, в котором приведены примеры фраз, содержащих это
ключевое слово. Знание ключевых слов необходимо для автоматического
формирования точных запросов к поисковым машинам.
Например, для статьи "Knowledge
Discovery" (она имеет типичную структуру) в разделе DEFINITIONS приводится следующее определение: "Knowledge
discovery is the non-trivial extraction of implicit, previously unknown and
potentially useful knowledge from data". Статья содержит ссылки на более специализированные статьи: Business
and Companies, Magazines and E-zines, Organizations,
Text Mining, Tools. Статья содержит ключевые слова (с примерами фраз) KNOWLEDGE DISCOVERY,
DATA MINING, INTERNATIONAL CONFERENCE, KDD и др.
Энциклопедия (Keywen.com) содержит внутреннюю поисковую машину которая позволяет быстро найти все ключевые фразы и
соответствующие статьи, содержащие то или иное ключевое слово. В результате для
любого ключевого слова можно быстро найти соответствующую ему предметную
область.
В начале 2004 года создана 2-я версия электронной
энциклопедии, имеющей вид открытого Проекта под названием "Энциклопедия
ключевых фраз". В рамках этого проекта каждый пользователь
Интернета может вносить свой вклад в развитие Энциклопедии. Каждому
пользователю предоставляется возможность переставлять разделы любой статьи в соответствии
со своими представлениями об их значимости, а также вводить новые фразы в
Энциклопедию. Для этого надо заполнить простую анкету из трех пунктов в которой помимо фразы надо дать ссылку на веб-сайт (источник в интернете) и указать страницу на этом Вебсайте, где есть обратная ссылка на Keywen.com или
Key-phrases.com. Развитие Открытого проекта позволит привлечь внимание
пользователей к Энциклопедии, увеличит их количество, и возможно, повысит
качество Энциклопедии на различных языках.
7. Перспективы
развития.
Направления развития "Энциклопедии ключевых
слов" и "Энциклопедии ключевых фраз" определяются следующим.
Во-первых, предполагается постоянное увеличение общего количества статей в
энциклопедии (на различных европейских языках, включая русский), так чтобы была
покрыта основная масса наиболлее популярных тем, а
также установление связей между соответствующими статьями на разных языках .
Во-вторых,
скорость обновления Энциклопедии будет увеличена. Старые статьи будут сохранены
в архиве Энциклопедии, а их место займут свежие статьи со ссылками на новые
фразы и новые веб-сайты из Интернета.
В-третьих, предполагатся
построить Рейтинг информативности веб-сайтов по
различным вопросам. Для этого необходимо проанализировать несколько миллионов
ссылок, которые содержит Keywen.com. Веб-сайты,
которые содержат больше ключевых фраз по данному вопросу, должны получить более
высокое положение в Рейтинге. Веб-сайты с высоким
положением в Рейтинге будут в большей мере использованы для формирования новых
статей, выявления их ключевых фраз и слов.
В-четвертых, дальнейшее развитие "Энциклопедии
ключевых фраз" включает совершенствование средств, обеспечивающих активное
участие в создании Энциклопедии пользователей - участников Открытого Проекта.
Здесь необходима разработка сложной системы для поддержки совместной работы
большого числа таких пользователей. Такая система должна уметь оценивать вклад
каждого пользователя, поддерживать системы голосования и различные уровни
полномочий при редактировании и разрешении конфликтов. Предполагается также
накопление библиотеки статей о самих участниках Открытого Проекта.
Этапы последующего развития связаны с использованием
лингвистического процессора. Это особенно актуально для русского языка, где
каждое слово имеет большое количество словоформ и слова согласуются по роду,
числу и падежу.
Этап 1.
Система для английского и русского языков с блоками морфологического анализа -
для преобразования слов в нормальную форму (для русского языка это крайне
необходимо). Упрощенный анализ предложений для выявления определений по
ключевым словам.
Этап 2.
Дополнительно обеспечивается выделение в качестве значимых компонент (названий
статей) - слов и словосочетаний. Для этого в систему вводится простейший блок
синтаксического анализа (это компонента лингвистического процессора),
обеспечивающий разбор предложений с выделением наиболее часто встречающихся
словосочетаний. Они объявляются значимыми.
Этап 3. В
лингвистический процессор вводятся средства для установления родо-видовых отношений между значимыми
объектами (по словосочетаниям), что используется при составлении статей. В последних появляется описание разновидностей объектов.
Этап 4.
Расширяется понятие "значимых компонент". В качестве них допускаются
не только слова и словосочетания, но и описываемые в документах объекты: люди,
адреса, организации, результаты нефтепромысла и т.д. Прикладные возможности
таких систем значительно шире. Для обеспечения их работы в лингвистический
процессор вводится блок синтактико-семантического анализа - для выделения
объектов и установления связей между ними: люди связываются с адресами,
нефтепромыслы с местом их расположения и т.д.
8.
Семантико-ориентированные системы.
Развитие концепций электронных энциклопедий приводит к
системам более общего плана (метасистемам),
обеспечивающим выявление из документов семантически значимой информации,
интересующей конкретного пользователя, и построение на этой основе
информационно-справочной системы [1,4]. В последней может
накапливаться информация о людях, организациях, событиях и др. - в соответствии
с потребностью пользователя. Для такого накопления требуется глубинная
обработка текстов ЕЯ - сообщений средств массовой информации из сети Интернет.
Метасистема должна выделять из текстов семантически значимую
информацию: интересующие пользователя объекты с их количественными и
качественными характеристиками - атрибутами. Например, это могут быть
фигуранты, их адреса, производства с указанием их месторасположения, состава
выпускаемой продукции, их количества, качества и т.д. Другие примеры:
несчастные случаи с указанием причин (от травматизма, пожаров,
дорожно-транспортных происшествий,...), количества
погибших и характера повреждений; экономические показатели - номенклатура и
количество выпускаемых изделий с указанием дат, места и др.
Выделяемые метасистемой объекты
и атрибуты определяются шаблонами, которые задаются пользователем. Каждый
шаблон соответствует своему значимому объекту и состоит из связанных позиций
(полей), которые сопоставляются атрибутам данного объекта. Каждый шаблон связан
с лингвистическими знаниями, определяющими привязку его полей к компонентам
естественного языка. Роль шаблона может играть таблица или схема базы данных
(БД).
Задача метасистемы - анализ
данных ей текстов с заполнением полей введенных в нее шаблонов. Если роль
шаблонов играют таблицы БД, тогда задача системы будет сводиться к
автоматическому заполнению этих таблиц на основе данной ей текстовой
информации. Следует учитывать тот факт, что различных пользователей может
интересовать различная информация. Более того, интересы пользователя со
временем могут изменяться. В связи с этим система должна настраиваться на
пользователя и интересующие его объекты. Способ настройки - ввод в систему
нового шаблона с привязкой его позиций к компонентам естественного языка, или
же изменение существующих шаблонов и соответствующих лингвистических знаний.
Подобного сорта системы начинают развиваться на Западе в
рамках перспективных направлений: Text mining, Knowledge discovery, которые считаются наиболее приоритетными. Их перспективность
определяется громадными объемами текстов, извлекаемых через Интернет,
невозможностью для пользователя их прочитать или даже просмотреть в приемлемое
время, чтобы найти интересующую его информацию.
В
настоящее время такая система создается на основе логико-аналитических систем
Аналитик и Криминал, использующих Базу Знаний и семантико-ориентированный
лингвистический процессор для задач автоматической формализации текстовой
информации, ответа на запросы в свободной форме и др. [2,3]. Требуется решить
задачу дифференцированного выявления интересующей пользователя информации из
сети Интернет.
В таких системах много общего с системой построения
электронной энциклопедии. Значимая информация соответствует названиям статей
энциклопедии. И то и другое нужно выделять из документов. Шаблоны - это
разновидность схем, по которым строятся статьи энциклопедии. Они также даются из вне. Здесь также требуется компоновка материала в
соответствии со схемой, формирование гиперссылок и др. Только понятие раздела
может быть не таким емким, как в электронных энциклопедиях. Это может быть
количественная характеристика, время, место и др.
Литература.
1. Кузнецов И.П. Семантические представления. М. Наука.
1986г.
290
с.
2. Кузнецов И.П., Шарнин М.М. Семантико-ориентированная
система фактографического поиска со входом на русском
и английском языках. Сб. Системы и средства информатики, вып.
7, М. Наука, 1995.
3. Кузнецов И.П. Принципы анализа компонент текста в
семантико-ориентированном лингвистическом процессоре. Сб. Системы и средства
информатики, вып. 10, М. Наука, 2000.
4. Kuznetsov Igor, Matskevich Andrey. System for Extracting Semantic Information from Natural Language
Text. Труды международного семинара
Диалог-2002 по компьютерной лингвистике и ее приложениям. Том
2. Протвино, Наука, 2002.
Развитие сети Интернет приводит к громадным объемам
информации, которые выдаются пользователям по их запросам. Отсюда необходимость
ее систематизации. Для этого важную роль играют электронные энциклопедии,
представляющие собой набор тематических каталогов и статей с гиперссылками для
связи статей между собой и обращения к первоисточникам. Однако, создание таких
энциклопедий - это громадный труд многих людей. В статье описываются подходы к
автоматическому формированию электронных энциклопедий по информации из Интернет. Здесь выделяются задачи отбора документов,
выделения терминов (для формирования новых статей), подбора материала для
имеющихся статей и др.
Рассматриваются особенности электронной энциклопедии,
созданной на базе предлагаемых методик и получившей название "Энциклопедия
ключевых слов", а также вариант ее развития - "Энциклопедия ключевых
фраз".
Отмечается, что одно из направлений развития связано с
использованием методов и средств интеллектуальных систем. В перспективе система
должна уметь выделять из текстов семантически значимую информацию: интересующие
пользователя объекты с их количественными и качественными характеристиками. Для
этой цели предлагается использовать семантико-ориентированный лингвистический процессор
и технологию Баз Знаний.
Automatic creation of
Electronic Encyclopedias and other reference materials using Information from
Internet
As result of
tremendous growth of the Internet, Internet users usually receive huge volumes
of information as responses to their queries to Internet search engines. That
is why it is necessary to systematize this information. Traditionally
Electronic Encyclopedias are often used for this purpose. Electronic
Encyclopedias usually contain thousands of articles, comprehensive
classification structure and hypertext links between articles and Internet web
sites. It takes a lot of work by many people to create such Electronic
Encyclopedias. This article describes some approaches for the automatic
creation of Electronic Encyclopedias using information from the Internet. Also,
the authors discuss how to search Internet source documents, select terminology
for new articles, and choose relevant keywords and key phrases.
The article describes
an automated system for the creation of "Encyclopedia of Keywords"
(www.keywen.com). For improving system efficiency, it is necessary to develop
and use some special Artificial Intelligence methods. In the future the system
should be able to select semantic information from natural language texts, such
as different objects and their parameters that are of interest to users. For
this purpose the authors plan to use a semantically oriented linguistic
processor.