Март 2014 — Блог о контент-анализе

Здравствуйте уважаемые читатели блога о контент-анализе!

Сегодня нереально короткий пост о замечательном инструменте лемматизации (приведения слов в исходную форму). Нашёл очень простой и удобный сервис онлайн лемматизации слов в массиве текстов. Он находится ЗДЕСЬ.

Для чего нам может понадобиться лемматизатор? Всё очень просто. Например, вы решили выявить ключевые темы, содержащиеся в массиве текстов, опираясь на наиболее часто встречающиеся в нём слова. Однако, если вы просто выявите этот список слов с их частотами, вы можете легко ошибиться в определении такого набора тем, так как вы не учитываете словоформы слов, встречающиеся в текстах. В этой связи сортировка слов по частоте даст не совсем корректные результаты. Однако, если изначально привести все слова в исходную форму (например, мужской род, единственное число), а уже потом просмотреть частотное распределение слов в массиве, результаты будут намного более точными, и вы получите объективное представление о доминировании тех или иных тематик в массиве текстов. Читать далее Простой и удобный инструмент онлайн лемматизации

Здравствуйте, уважаемые читатели!

Я решил опубликовать результаты пилотного замера, проведённого недавно на добровольных началах вместе с Андреем Осяниным, преподавателем из Нижегородской Академии МВД. Замер был проведён главным образом для тестирования категориального аппарата, для понимания, какова должна быть оптимальная выборка для реализации замеров (ну, скорее поняли, какой она не должна быть 🙂 ). Суть замера достаточно проста — мы скачали небольшой массив текстов с vk.com, в которых упоминались произошедшие в России теракты последних лет. Выборка вышла скромная — около 700 сообщений, собранных в ноябре-декабре 2013. Каждый из постов должен был быть опубликован россиянином.

Читать далее Пример контент-анализа социальной сети вконтакте. Изучение обсуждения терактов