Подсчет частот слов и биграмм. Извлечение предложений из текстов

Давным давно сюда ничего не писал — просто как-то переключился на другие занятия. Думаю, в скором будущем здесь будет появляться больше материалов.

Недавно захотелось немного поэксперементировать с фреймвоком Angular, поразбирать его, а также посмотреть, насколько комфортно можно обрабатывать большим массивы текстов на клиентской части — то есть в браузере. В общем эксперимента ради сделал небольшое веб приложение. Предназначено оно для выборки предложений, содержащих нужную лексику, подсчета частот слов и биграмм в этих предложениях, экспорта предложений и частот слов / биграмм, экспорта term-text матрицы — можно выбрать наиболее часто встречающиеся слова и их словоформы и выгрузить таблицу, в которой будет отражена встречаемость каждого из слов в каждом их предложений. Сделать хотелось больше, но в общем я просто играл с Angular и планы далее совсем другие.

Приложение находится ТУТ. Разрабатывалось под использование в Google Chrome и в других браузерах может не работать.

На первой вкладке «тексты» можно загрузить файлы txt, кодировка для текстов на русском языке должна быть UTF-8. Можно загрузить и тексты на других языках, но поиск словоформ я делал только для русского языка.

На вкладке «фрагменты» мы можем ввести любые из форм слов и получить все их словоформы. Они будут использованы для поиска предложений, содержащих любое из слов

Далее при нажатии на кнопку «найти фрагменты» отобразятся все найденные предложения. Здесь же можно выгрузить в текстовый файлик найденные предложения.

На вкладке «статистика» мы можем посмотреть и экспортировать в текстовый файл частоты слов, содержащихся в выбранных на предыдущей вкладке предложениях. При подсчете частот слов можно исключить стоп слова.

Для получения биграмм надо ввести основу биграмм — первое слово. К ней можно найти все словоформы с помощью кнопки «морфология для биграмм». Частоты биграмм также можно экспортировать в текстовый файл.

Также мы можем сформировать и экспортировать term-text матрицу для наиболее часто встречающихся слов. Предварительно мы должны их выбрать (чексбокс «использовать» на карточке слова). При клике на кнопку словоформы мы можем выбрать формы этого слова, которые будут относится к терму (столбец в будущей таблице).

Выбрав нужные нам слова и их словоформы кликаем «экспорт term-text матрицы».

Вот такое небольшое приложение. Работу со словоформами можно было сделать значительно более развернуто, но такой задачи сейчас себе не ставил. Но ставлю ее и другие для будущего большого проекта — «Иволга», который вот-вот начну делать. Вкратце: хочу сделать 1. сбор текстов из СМИ (будет краулер, база сми и возможность собирать из источников, которых нет в базе), 2. ручная разметка текстов — QDA, типа dedoose, atlas.ti, qda miner и пр. 3. Какая-то визуализация и возможность поиграть с результатами ручной разметки, поэкспортировать данные и пр. 4. Автоматизация разметки на основе размеченного вручную. Проект намечается большой, долгий, поэтому пока планирую начать тщательно планировать…

Автор

Алексей Рюмин

Здравствуйте, уважаемый гость блога! Меня зовут Алексей Рюмин. На этом блоге мне хочется поделиться с Вами материалами о контент-анализе. Надеюсь, они окажутся полезными и интересными Вам. Приятного прочтения блога! Посмотреть все записи автора Алексей Рюмин