Подсчет частот слов и биграмм. Извлечение предложений из текстов

Давным давно сюда ничего не писал — просто как-то переключился на другие занятия. Думаю, в скором будущем здесь будет появляться больше материалов. 

Недавно захотелось немного поэксперементировать с фреймвоком Angular, поразбирать его, а также посмотреть, насколько комфортно можно обрабатывать большим массивы текстов на клиентской части — то есть в браузере. В общем эксперимента ради сделал небольшое веб приложение. Предназначено оно для выборки предложений, содержащих нужную лексику, подсчета частот слов и биграмм в этих предложениях, экспорта предложений и частот слов / биграмм, экспорта term-text матрицы — можно выбрать наиболее часто встречающиеся слова и их словоформы и выгрузить таблицу, в которой будет отражена встречаемость каждого из слов в каждом их предложений. Сделать хотелось больше, но в общем я просто играл с Angular и планы далее совсем другие. 

Приложение находится ТУТ.  Разрабатывалось под использование в  Google Chrome и в других браузерах может не работать. 

На первой вкладке «тексты» можно загрузить файлы txt, кодировка для текстов на русском языке должна быть UTF-8. Можно загрузить и тексты на других языках, но поиск словоформ я делал только для русского языка. 

 

На вкладке «фрагменты» мы можем ввести любые из форм слов и получить все их словоформы. Они будут использованы для поиска предложений, содержащих любое из слов

Читать далее Подсчет частот слов и биграмм. Извлечение предложений из текстов