WordStat — экспресс контент-анализ текста

Здравствуйте, уважаемые читатели блога о контент-анализе.

Итак, сегодня  снова предельно короткий обзор прграммки для проведения контент-анализа. На сей раз это WORDSTAT. Она производит количественный контент-анализ. Функционал неширок, однако есть приятные элементы. Выглядит она вот так:

Программа позволяет проводить анализ документов txt и веб страниц (html и htm). Для того, чтобы загрузить для работы новый документ используется кнопка ВЫБРАТЬ ФАЙЛ ДЛЯ ОБРАБОТКИ. Выбираем файл и дальше устанавливаем необходимые настройки.

Примечательно, что программа позволяет суммировать результаты контент-анализа в одном отчёте, то есть может работать не только с одним, а с несколькими файлами. Для того, чтобы активировать эту опцию, поставьте галочку рядом с НАКАПЛИВАТЬ СУММУ РЕЗУЛЬТАТОВ.

Для того, чтобы не дифференцировать равные по семантике, но отличные по морфемике слова, а именно объединить слова с разными окончаниями, но одинаковой остальной частью слова, используйте опцию ОБЪЕДИНЯТЬ ПОХОЖИЕ СЛОВА.


Ещё одна полезная опция – СЧИТАТЬ ТОЛЬКО БОЛЬШЕ ОДНОГО. Она позволяет отсеять слова, встречающиеся в тексте только один раз. Жаль, что ограничение можно установить только на единожды встречающиеся слова. В большом массиве текстов актуально нивелировать значимость слов встречающихся значительно чаще.

Ниже мы видим опцию выбора директории сохранения файла с результатами. Если нас она не устраивает – меняем директорию. По умолчанию это txt файл wordstat.txt

Файлы отчёта мы можем отсортировать по алфавиту или по частоте встречаемости. Для этого используется опция СОРТИРОВАТЬ ПО.

Другая важная опция – форма размещение результатов анализа. Программа может показывать частоту встречаемости слова рядом с самим словом в той же строке либо помещать число на следующей строчке файла. Устанавливаем нужный вариант.

Последние две опции тоже предельно понятные: ПОКАЗЫВАТЬ СВОДКУ – просто выводит краткий отчёт о проделанной работе. Выглядит она вот так:

АВТОМАТИЧЕСКИ ОТКРЫТЬ ФАЙЛ РЕЗУЛЬТАТОВ – по завершению обработки текста без усилий со стороны пользователя открывает файл результатов анализа. Выгружаются они в файл txt – надо признать, что это не очень удобно. EXCEL был бы более полезен в данном случае. Результаты отображаются так:

Вот собственно и всё. Программа простая и подходит для проведения экспресс контент-анализа массива текстов.

Спасибо за внимание!

P.S. ещё несколько обзоров простого софта и перейду к более сложному J

Print Friendly, PDF & Email

Автор

Алексей Рюмин

Здравствуйте, уважаемый гость блога! Меня зовут Алексей Рюмин. На этом блоге мне хочется поделиться с Вами материалами о контент-анализе. Надеюсь, они окажутся полезными и интересными Вам. Приятного прочтения блога!

WordStat — экспресс контент-анализ текста: 2 комментария

  1. Добрый день. Хотел бы у Вас поинтересоваться.
    У меня почему-то в результатах анализа появляются не обычные слова с частотой встречаемости, а такого плана:

    Р 1259
    САР 87
    СБР 77
    СВР 67
    СБСВР 41
    СП 32
    СМР 29
    СЗР 29
    СЖР 19
    СЛР 18
    СДР 14
    СБСВСМ 14
    Текст загружаю обычный, в формате txt
    Не могу понять, почему так получается.
    С уважением, Евгений.

    1. Здравствуйте! Попробуйте поменять кодировку документа. Мне кажется, проблема может быть в этом
      (в блокноте «сохранить как»/внизу «кодировка»

Обсуждение закрыто.