Материал из IpiranLogos.

Практическая работа по Sketch Engine охватывает следующие темы:

  • создание собственного корпуса текстов на основе plain text
  • создание собственного корпуса текстов на основе текста с разметкой
  • создание переводческого корпуса текстов на нескольких языках
  • построение конкордансов с помощью запросов различного типа (включая Corpus Query Language на основе регулярных выражений)
  • уточнение конкордансов с помощью контекстных фильтров
  • сортировка конкордансов
  • построение частотных распределений по различным элементам конкорданса
  • коллокации
  • грамматические портреты слов (word sketches)
  • частотные словари
  • дистрибутивно-семантические тезаурусы
  • создание собственных правил синтаксического разбора текстов

Практическая работа по GATE учит размечать текст и проводить поиск по разметке. Текстовые инструкции сопровождаются пошаговыми видео.

Практическая работа по Python3 учит использованию аппарата регулярных выражений Python и основным синтаксическим конструкциям и типам языка Python на примере анализа файла с морфологическим разбором текста (выполненным системой Sketch Engine).

Практическая работа по NLTK демонстрирует основные возможности библиотеки NLTK:

  • Разбиение текста на предложения и на слова
  • Удаление стоп-слов
  • Удаление "окончаний" (stemming)
  • Частеречная разметка
  • Выделение групп слов с помощью chunking
  • Выделение групп слов с помощью chinking
  • Извлечение именованных сущностей
  • Определение начальной формы слова
  • Корпусы текстов
  • WordNet
  • Обучение классификатора на корпусе отзывов о фильмах