Здравствуйте уважаемые читатели блога о контент-анализе!
Сегодня нереально короткий пост о замечательном инструменте лемматизации (приведения слов в исходную форму). Нашёл очень простой и удобный сервис онлайн лемматизации слов в массиве текстов. Он находится ЗДЕСЬ.
Для чего нам может понадобиться лемматизатор? Всё очень просто. Например, вы решили выявить ключевые темы, содержащиеся в массиве текстов, опираясь на наиболее часто встречающиеся в нём слова. Однако, если вы просто выявите этот список слов с их частотами, вы можете легко ошибиться в определении такого набора тем, так как вы не учитываете словоформы слов, встречающиеся в текстах. В этой связи сортировка слов по частоте даст не совсем корректные результаты. Однако, если изначально привести все слова в исходную форму (например, мужской род, единственное число), а уже потом просмотреть частотное распределение слов в массиве, результаты будут намного более точными, и вы получите объективное представление о доминировании тех или иных тематик в массиве текстов. Читать далее Простой и удобный инструмент онлайн лемматизации