Материал из IpiranLogos.
Практическая работа по Sketch Engine охватывает следующие темы:
- создание собственного корпуса текстов на основе plain text
- создание собственного корпуса текстов на основе текста с разметкой
- создание переводческого корпуса текстов на нескольких языках
- построение конкордансов с помощью запросов различного типа (включая Corpus Query Language на основе регулярных выражений)
- уточнение конкордансов с помощью контекстных фильтров
- сортировка конкордансов
- построение частотных распределений по различным элементам конкорданса
- коллокации
- грамматические портреты слов (word sketches)
- частотные словари
- дистрибутивно-семантические тезаурусы
- создание собственных правил синтаксического разбора текстов
Практическая работа по GATE учит размечать текст и проводить поиск по разметке. Текстовые инструкции сопровождаются пошаговыми видео.
Практическая работа по Python3 учит использованию аппарата регулярных выражений Python и основным синтаксическим конструкциям и типам языка Python на примере анализа файла с морфологическим разбором текста (выполненным системой Sketch Engine).
Практическая работа по NLTK демонстрирует основные возможности библиотеки NLTK:
- Разбиение текста на предложения и на слова
- Удаление стоп-слов
- Удаление "окончаний" (stemming)
- Частеречная разметка
- Выделение групп слов с помощью chunking
- Выделение групп слов с помощью chinking
- Извлечение именованных сущностей
- Определение начальной формы слова
- Корпусы текстов
- WordNet
- Обучение классификатора на корпусе отзывов о фильмах