Главная Страница > Публикации

Лингвистические и алгоритмические аспекты выделения  объектов и связей из предметно-ориентированных текстов

Linguistic and algorithmic aspects of object extraction from subject texts of natural language

Кузнецов И.П

 igor-kuz@mtu-net.ru 

Мацкевич А.Г.

Институт проблем информатики РАН

Аннотация

 

Рассматриваются проблемы  построения одного  класса семантико-ориентированных лингвистических процессоров, выделяющих из текстов естественного языка информационные объекты и их связи. Настройка процессоров на предметную область осуществляется за счет лингвистических знаний. Анализируются опыт использования таких процессоров для формализации текстов в различных предметных областях: криминалистики (сводки происшествий, обвинительные заключения и др.), СМИ (документы о террористической деятельности), кадры (автобиографии, резюме). Рассматриваются особенности каждой такой области: наборы выделяемых объектов, необходимость их идентификации, связи, а также имеющие место сокращения, разделительные знаки, специфика языковых конструкций и др. Такие особенности были учтены при разработке лингвистических знаний.                 

  

 

 

              Рис.1. Набор выделяемых объектов процессором Semantix.

 

Полный текст статьи