Главная Страница > Проекты

Многоязычная система логико-аналитической обработки потоков информации с формированием результатов на естественном языке

(2006-2007г.)

Шифр «Поток»

                        

                               Научный руководитель  д.т.н., проф. Кузнецов Игорь Петрович

 

 

1. Назначение  и цели системы «ПОТОК»

Перед многими службами, имеющими дело с потоками текстовой информации, на естественном языке стоит проблема их формализации: необходимость представления в тех формах, которые приняты в этих службах и в рамках которых данная информация используется. Требуется формализация текстов - выделение компонент с заполнением ими соответствующих полей анкеты или реляционной таблицы.

В рамках работ по созданию «ПОТОК» автоматизируется деятельность структур, связанная с обработкой больших массивов неструктурированной текстовой информации, автоматическом выявлении сведений об информационных объектах, и выполнения иных функций, связанных с информационным обеспечением процесса принятия  решений.

   Данный проект имеет целью - развитие методов и средств автоматической формализации текстов для выделения значимых компонент (информационных объектов) с их отображением на поля требуемой анкеты или таблицы.

 Для формализации текстовой информации  предлагается многоуровневая система, основанная на методиках извлечения семантической информации, разработанных в ИПИ РАН в рамках системы АНАЛИТИК. Особенность методик заключается в переносе сложных этапов лингвистического анализа на уровень обработки структур знаний - расширенных семантических сетей (РСС), где за счет использования инструментальных средств DECL реализуются сложные виды синтактико-семантического анализа и идентификации. Для отображения структур знаний на поля анкеты или таблицы предлагается разработать обратный лингвистический процессор, осуществляющий нахождение соответствующего объекта в тексте с извлечением фрагмента текста с его занесением в требуемое поле. Данный проект (ПОТОК) предполагает развитие наработанных методик в направлении совершенствования, во-первых, методов выявления информационных объектов и связей (в том числе для англоязычных текстов, и во-вторых, методов построения текстов описания объектов с их отображением на поля указанной формы.

      2. Краткие сведения об объектах автоматизации

Важная задача многих кадровых и рекрутинговых агентств связана автоматической обработкой автобиографических данных, заявок на работу (резюме), написанных в достаточно произвольной форме - в виде текстов естественного языка (ЕЯ). Такие тексты содержат сведения о человеке: ФИО, год рождения, адрес, время и место учебы с указанием наименования учебного заведения, факультета, специальности, места работы (организации) с указанием периода работы, должности, основных обязанностей и др. Будем называть эти данные информационными объектами.

Использовать такие тексты, представленные в электронном виде, например, для поиска нужного работника, составления разного рода отчетов представляет серьезную задачу. Полнотекстовые базы данных могут служить для поиска отдельных компонент: ФИО, организаций с уникальными названиями и др. Но общей картины получить трудно. Требуется формализация текстов - выделение компонент с заполнением ими соответствующих полей анкеты или реляционной таблицы. Во многих службах и агентствах такая формализация делается вручную специально подготовленными людьми, или же самим человеком, которому предлагается ввести его сведения в указанные поля по требуемой форме. Это достаточно трудоемкая работа.

 

        3. Характеристики системы «ПОТОК»

 

Система «ПОТОК» - это экспериментальный аппаратно-программный комплекс, предназначенный для формализации текстовой информации (документов, резюме и др.). Ядро системы ПОТОК включает:

 Блок морфологического анализа, который преобразует текст в семантическую сеть, представляющую поверхностную структуру текста. В этой сети все русские слова преобразованы в каноническую (нормальную) форму, а английские присутствуют в виде словоформ. В сети представлен порядок расположения слов и других знаков, а также начало и конец каждого предложения. Для каждого слова указаны его морфологические характеристики (часть речи, падеж и др.) и чисто формальные признаки: слово с большой буквы, большими буквами, с точкой на конце и др.

 Прямой лингвистический процессор (ЛП), который управляются с помощью лингвистических знаний (ЛЗ). Прямой ЛП - это оболочка, которая становится процессором после ее заполнения ЛЗ. ЛЗ - это также структуры знаний (РСС). ЛЗ прямого ЛП представляют собой контекстные правила специального вида. Прямой ЛП преобразует тексты в структуры знаний, называемые содержательными портретами документа (резюме), где с помощью РСС представлены информационные объекты и их связи. Это предметные знания. На уровне структур знаний идет их обработка - преобразование представлений, приведение компонент информационных объектов к единому виду, установлению связей, в том числе, которые даны по умолчанию, и др.

Обратный лингвистический процессор (ЛП), который преобразует структуры знаний (РСС) в компоненты ЕЯ и отображает их на поля анкеты или таблицы. Обратный ЛП - это также оболочка, которая управляется своими ЛЗ. ЛЗ обратного ЛП определяют вид формируемой анкеты и связь ее полей с компонентами содержательного портрета документа (РСС).

В системе «ПОТОК», во-первых, обработка идет на уровне структур знаний (РСС) с использованием созданного для этого инструментария (языка ДЕКЛ). Отсюда возможность вовлечения в процесс анализа семантических категорий и различного рода связей. И во-вторых, основные  процессоры  сделаны как оболочки, которые легко подстраивать под предметную область и особенности текстов за счет знаний -  ЛЗ прямого и обратного ЛП.

Система «ПОТОК»  удовлетворяет следующим функциональным  требованиям:

·         Обеспечивает нормализацию русских слов с выявлением их морфологических признаков. Для русских и английских слов обеспечивает выявление следующих признаков:

-                       формальных (слово с большой буквы, большими буквами, в конце точка, слово в начале строки, английское слово и др.);

-                       семантических (в соответствии с имеющимися каталогами и ЛЗ);

-                       признаков конца предложения и наличия пробельных строк.

·         На основе использования предметных словарей и контекстных правил в процессе синтактико-семантического анализа обеспечивает выделение из русскоязычных и англоязычных документов следующих информационных объектов и связей (с построением содержательных портретов - РСС):

-                       лиц с их атрибутами ("основное лицо", "лицо, дающее рекомендацию");

-                       адресов, почтовых атрибутов (с привязкой к лицам);

-                       номеров телефонов, факсов, е-майлов (с привязкой к лицам);

-                       организаций с указанием типа ("место учебы", "место работы", "курсы");

-                       факультетов, специальностей (с привязкой к организациям типа "место учебы");

-                       должностей (с привязкой к организациям типа "место работы");

-                       дат, интервалов времени (с привязкой к организациям);

-                       действий, представляющих основные обязанности работника (с привязкой к организациям);

-                       связей между различными типами информационных объектов, т.е. их привязку (кем работало лицо в той или иной организации, с какого по какое время, какие основные обязанности т.д.).

В содержательные портреты документов (РСС) введены средства соотнесения объектов к предложениям, а также средства позиционирования предложений в документе.

На основе содержательных портретов обеспечивается выдача описаний объектов в соответствии с первоисточником, т.е. как в документе.

 

Система «ПОТОК» обеспечивает удобные средства настройки на выделение объектов.

Система обеспечивает автоматическое переключение с русского языка на английский и обратно на основе признаков слов анализируемого документа (от этого зависит, какие ЛЗ использовать для прямого ЛП).

 

 Публикации

 

  1. Кузнецов И.П., Мацкевич А.Г. Семантико-ориентированный лингвистический процессор для автоматической формализации автобиографических данных. Труды международной конференции по компьютерной лингвистике и интеллектуальным технологиям "Диалог 2006",

Бекасово, 2006, стр. 317-322.

  2. Кузнецов И.П., Петров А.А. Особенности англо-русского лингвистического процессора, интегрированного с Интернет-порталом. Труды международной конференции по компьютерной лингвистике и интеллектуальным технологиям "Диалог 2006", Бекасово, 2006, стр. 426-428.

  3. Кузнецов И.П. Семантико-ориентированная система обработки неформализованной информации с выдачей результатов на естественном языке. Сб. ИПИ РАН, 2006 г.

  4. Кузнецов И.П. Особенности организации семантико-ориентированных систем обработки неформализованых документов. Сб. ИПИ РАН, Спецып. под ред. Колина К.К. 2006 г.

  5. Кузнецов И.П. Рабинович Б.И. Модель базы знаний с возможностью интеграции внешних источников информации в системе Аналитик. Сб. ИПИ РАН, 2007 г.   

  6. Kuznetsov I.P., Kozerenko E.B., Matskevich A.G. Linguistic and Algorithmic aspects of
 object extraction from Natural language texts. Proceeding of International Conference on 
Machine Learning, June, 2007 Las Vegas, USA// CSREA Press, 2007. 
  7. Кузнецов И.П., Сомин Н.В. Англо-русская система извлечения знаний из 
потоков информации в среде Интернет. Сб. ИПИ РАН, Вып.17. 2007 г., стр. 236-253. 
  8. Кузнецов И.П., Рабинович Б.И. Модель базы знаний с возможностью интеграции 
внешних источников информации в системе «Аналитик». Сб. ИПИ РАН, 
Вып.17. 2007 г., стр. 254-272. 

  9. Кузнецов И.П., Мацкевич А.Г. Лингвистические и алгоритмические аспекты выделения  объектов и связей из предметно-ориентированных текстов. Труды мждународной конференции по компьютерной лингвистике и интеллектуальным технологиям "Диалог 2007", Бекасово, 2007, стр. 333-342 .