Главная Страница > Публикации |
Лингвистические и алгоритмические аспекты
выделения объектов и связей из
предметно-ориентированных текстов
Linguistic and algorithmic aspects of object
extraction from subject texts of natural language
Кузнецов
И.П
Мацкевич А.Г.
Институт
проблем информатики РАН
Аннотация
Рассматриваются проблемы
построения одного класса
семантико-ориентированных лингвистических процессоров, выделяющих из текстов
естественного языка информационные объекты и их связи. Настройка процессоров на
предметную область осуществляется за счет лингвистических знаний. Анализируются
опыт использования таких процессоров для формализации текстов в различных
предметных областях: криминалистики (сводки происшествий, обвинительные
заключения и др.), СМИ (документы о террористической деятельности), кадры
(автобиографии, резюме). Рассматриваются особенности каждой такой области:
наборы выделяемых объектов, необходимость их идентификации, связи, а также
имеющие место сокращения, разделительные знаки, специфика языковых конструкций
и др. Такие особенности были учтены при разработке лингвистических знаний.
Рис.1.
Набор выделяемых объектов процессором Semantix.
Полный текст статьи |