Здравствуйте уважаемые читатели блога о контент-анализе!
Сегодня нереально короткий пост о замечательном инструменте лемматизации (приведения слов в исходную форму). Нашёл очень простой и удобный сервис онлайн лемматизации слов в массиве текстов. Он находится ЗДЕСЬ.
Для чего нам может понадобиться лемматизатор? Всё очень просто. Например, вы решили выявить ключевые темы, содержащиеся в массиве текстов, опираясь на наиболее часто встречающиеся в нём слова. Однако, если вы просто выявите этот список слов с их частотами, вы можете легко ошибиться в определении такого набора тем, так как вы не учитываете словоформы слов, встречающиеся в текстах. В этой связи сортировка слов по частоте даст не совсем корректные результаты. Однако, если изначально привести все слова в исходную форму (например, мужской род, единственное число), а уже потом просмотреть частотное распределение слов в массиве, результаты будут намного более точными, и вы получите объективное представление о доминировании тех или иных тематик в массиве текстов.
Интерфейс лемматизатора очень простой — можете просто вставить скопированный текст, либо загрузить целый документ. Далее выгрузить результаты лемматизации в CSV файл или просмотреть результаты лемматизации в браузере. Первый вариант мне кажется более актуальным.
Такой подход можно применять, например, при создании словаря при работе в программе ЛЕКТА. То есть вы сгружаете весь массив текстов в лемматизатор в виде одного файла, а далее создаёте словарь на основе наиболее частотных слов, представленных в таблице. В этом случае результаты замера будут более точными, а идентифицируемые в дальнейшем в ходе факторизации темы будут более четко и явно передавать содержание массива.
Вот скрин того, какие результаты вы получаете в ходе лемматизации на примере рандомного массива текстов из челябинских СМИ:
Большое спасибо. Это значительно упрощает работу!