Главная Страница > |
Извлечение знаний из текстов естественного
языка
Это
одна из наиболее актуальных задач областей «лингвистика» и «информатика».
Тексты – это наборы слов и знаков, из которых нужно выделить то, что интересует
пользователя. Пример такого выделения представлен на следующем рисунке:
За
последнее время одной из важнейших проблем является автоматическая обработка
текстов, получаемых пользователями, в том числе через ИНТЕРНЕТ. Лавинообразный
рост объемов документов требует дифференцированного извлечения только такой
информации, которая может заинтересовать пользователя. Речь идет о
содержательной обработке, т.е. извлечении знаний из текстов.
Трудности такой обработки определяются особенностями естественного языка (ЕЯ):
наличием большого количества словоформ, синтаксических конструкций,
неоднозначностей, умолчаний и др. В связи с этим, уровень формализации текстов
в существующих системах (полнотекстовых баз данных, системах на гипертекстовой
основе) невысок, что зачастую не устраивает пользователя.
Полнотекстовые
базы данных не решают проблемы, так как при работе с текстами на ЕЯ дают много шумов (лишних
документов) и потерь. Причина этому - свободный порядок слов в русском языке,
явление омонимии и полисемии. Одно и тоже можно
выразить множеством различных способов. Более того, слова запроса могут быть
разбросаны по тексту документа и относиться к различным сущностям. Все одно
документ будет найден. Например, нужно найти Иванова Ивана, а в документе упоминаются Иванов Петр и Петров Иван.
Такой документ при поиске будет считаться адекватным. Чтобы уменьшить процент
шумов используют различные методы: вводят критерии близости слов, обрезают
окончания словоформ, вводят индексирование нормализованных слов и др. Но и это
кардинально не решает проблемы.
Другой
вариант - это использование реляционных БД. Но для этого требуются трудоемкая
работа специально обученных людей по формализации текстов на
ЕЯ: выделение из текстового документа (происшествия)
лиц, адресов, дат,... и заполнение соответствующих таблиц БД. При больших
потоках документов это сделать крайне трудно. В любом случае будут потери той
информации, которая не учтена в рамках схем (таблиц) БД.
Описанная
ситуация является типичной для многих других областей, имеющих дело с потоками
информации в виде текстов на ЕЯ:
через СМИ, ИНТЕРФАКС, из специальных источников.
Отметим,
что в настоящее время в глобальной сети Интернет хранится огромное количество
всевозможной информации. Подавляющее большинство документов - это текстов на ЕЯ. На данный момент в качестве помощи пользователю,
работающему в Интернет, предлагается класс поисковых машин, которые
обеспечивают возможность контекстного поиска по ключевым словам запроса.
Поисковая машина является универсальным инструментом и дает много лишней
информации, которую конечному пользователю приходится самостоятельно анализировать.
Причиной этому является неспособность поисковой машины вылавливать то, что
интересует пользователя.
В
тоже время большинство конкретных пользователей - это люди, которые
интересуются конкретными вещами. Например, следователю важны фигуранты, их
место жительства, телефоны, криминальные события, даты и др. Специалиста по
кадрам интересуют организации, где человек работал, кем он работал
и когда это было. Другие люди вылавливают из СМИ информацию о странах,
влиятельных лицах, катастрофах и др. Здесь важны и связи: место работы с
занимаемой должностью, экстремальная ситуация с ее временем и т.д. Будем
называть интересующую пользователя конкретную информацию - информационными
объектами. Каждый пользователь (или класс пользователей) интересуется своими
объектами и связями между ними. Вся остальная информация является лишней и
человек старается ее просто не замечать. Отсюда часто используемая людьми
методика чтения "по диагонали", или "с поиском ключевых
слов".
Перспективное
направление в области информатики (обработки документов на
ЕЯ) должно учитывать, прежде всего, интересы конечного
пользователя. Отсюда следует необходимость построения нового класса
информационных систем, использующих специальные лингвистические процессоры и
технологию баз знаний (БЗ). Лингвистические процессоры необходимы для глубинной
обработки текстов с выявлением информационных объектов и связей. На основе
последних формируются структуры знаний, которые образуют БЗ. На уровне БЗ
становится возможным более полно учитывать потребности пользователя - за счет
организации различных видов поиска: поиска конкретных объектов, поиска похожих
объектов, поиска по связям и др. Такие виды поиска относятся к
"семантическим", так как осуществляется не на уровне слов или
словоформ, а на уровне структур знаний из БЗ. Будем называть системы подобного
типа семантико-ориентированными.