Сделал генератор поисковых запросов для твиттера

Здравствуйте, уважаемые читатели блога о контент-анализе!

Эта заметка — наверное, просто на память и для сохранности моей библиотеки и графической реализации ее использования на java swing. Библиотека позволяет из исходного поискового запроса для твиттера, где не учтена возможная морфология слов, получить массив таких же по логической структуре поисковых запросов, но уже с учетом возможной морфологии. Если словоформ сгенерировалось мало — можно добавить свою лексику. Если есть что-то лишнее — это лишнее можно убрать. Дело в том, что поисковик твиттера сам не будет искать все словоформы — найдет твиты со словами в тех формах, что заданы в вашем поисковом запросе. Словоформы придется указать вручную. Однако, всегда можно что-то забыть указать или нужно сделать ОЧЕНЬ много запросов, а времени или желания прописывать в них все словоформы просто нет.

ts Читать далее Сделал генератор поисковых запросов для твиттера

Простой и удобный инструмент онлайн лемматизации

Здравствуйте уважаемые читатели блога о контент-анализе!

Сегодня нереально короткий пост о замечательном инструменте лемматизации (приведения слов в исходную форму). Нашёл очень простой и удобный сервис онлайн лемматизации слов в массиве текстов. Он находится ЗДЕСЬ.

words

Для чего нам может понадобиться лемматизатор? Всё очень просто. Например, вы решили выявить ключевые темы, содержащиеся в массиве текстов, опираясь на наиболее часто встречающиеся в нём слова. Однако, если вы просто выявите этот список слов с их частотами, вы можете легко ошибиться в определении такого набора тем, так как вы не учитываете словоформы слов, встречающиеся в текстах. В этой связи сортировка слов по частоте даст не совсем корректные результаты. Однако, если изначально привести все слова в исходную форму (например, мужской род, единственное число), а уже потом просмотреть частотное распределение слов в массиве, результаты будут намного более точными, и вы получите объективное представление о доминировании тех или иных тематик в массиве текстов. Читать далее Простой и удобный инструмент онлайн лемматизации