WordStat — экспресс контент-анализ текста

Здравствуйте, уважаемые читатели блога о контент-анализе.

Итак, сегодня снова предельно короткий обзор прграммки для проведения контент-анализа. На сей раз это WORDSTAT. Она производит количественный контент-анализ. Функционал неширок, однако есть приятные элементы. Выглядит она вот так:

Программа позволяет проводить анализ документов txt и веб страниц (html и htm). Для того, чтобы загрузить для работы новый документ используется кнопка ВЫБРАТЬ ФАЙЛ ДЛЯ ОБРАБОТКИ. Выбираем файл и дальше устанавливаем необходимые настройки.

Примечательно, что программа позволяет суммировать результаты контент-анализа в одном отчёте, то есть может работать не только с одним, а с несколькими файлами. Для того, чтобы активировать эту опцию, поставьте галочку рядом с НАКАПЛИВАТЬ СУММУ РЕЗУЛЬТАТОВ.

Для того, чтобы не дифференцировать равные по семантике, но отличные по морфемике слова, а именно объединить слова с разными окончаниями, но одинаковой остальной частью слова, используйте опцию ОБЪЕДИНЯТЬ ПОХОЖИЕ СЛОВА.

Ещё одна полезная опция – СЧИТАТЬ ТОЛЬКО БОЛЬШЕ ОДНОГО. Она позволяет отсеять слова, встречающиеся в тексте только один раз. Жаль, что ограничение можно установить только на единожды встречающиеся слова. В большом массиве текстов актуально нивелировать значимость слов встречающихся значительно чаще.

Ниже мы видим опцию выбора директории сохранения файла с результатами. Если нас она не устраивает – меняем директорию. По умолчанию это txt файл wordstat.txt

Файлы отчёта мы можем отсортировать по алфавиту или по частоте встречаемости. Для этого используется опция СОРТИРОВАТЬ ПО.

Другая важная опция – форма размещение результатов анализа. Программа может показывать частоту встречаемости слова рядом с самим словом в той же строке либо помещать число на следующей строчке файла. Устанавливаем нужный вариант.

Последние две опции тоже предельно понятные: ПОКАЗЫВАТЬ СВОДКУ – просто выводит краткий отчёт о проделанной работе. Выглядит она вот так:

АВТОМАТИЧЕСКИ ОТКРЫТЬ ФАЙЛ РЕЗУЛЬТАТОВ – по завершению обработки текста без усилий со стороны пользователя открывает файл результатов анализа. Выгружаются они в файл txt – надо признать, что это не очень удобно. EXCEL был бы более полезен в данном случае. Результаты отображаются так:

Вот собственно и всё. Программа простая и подходит для проведения экспресс контент-анализа массива текстов.

Спасибо за внимание!

P.S. ещё несколько обзоров простого софта и перейду к более сложному J

Автор

Алексей Рюмин

Здравствуйте, уважаемый гость блога! Меня зовут Алексей Рюмин. На этом блоге мне хочется поделиться с Вами материалами о контент-анализе. Надеюсь, они окажутся полезными и интересными Вам. Приятного прочтения блога! Посмотреть все записи автора Алексей Рюмин

WordStat — экспресс контент-анализ текста: 2 комментария

Добрый день. Хотел бы у Вас поинтересоваться.
У меня почему-то в результатах анализа появляются не обычные слова с частотой встречаемости, а такого плана:

Р 1259
САР 87
СБР 77
СВР 67
СБСВР 41
СП 32
СМР 29
СЗР 29
СЖР 19
СЛР 18
СДР 14
СБСВСМ 14
Текст загружаю обычный, в формате txt
Не могу понять, почему так получается.
С уважением, Евгений.

Алексей Рюмин:

13.04.2014 в 21:10

Здравствуйте! Попробуйте поменять кодировку документа. Мне кажется, проблема может быть в этом
(в блокноте «сохранить как»/внизу «кодировка»

Обсуждение закрыто.