Здравствуйте, уважаемые читатели блога о контент-анализе!
Сегодня будет вторая часть обзора программы для проведения количественного контент-анализа Yoshikoder. Первая была написана в далеком октябре 2013 года 🙂 А дальше я подзабросил писать на блоге — не потому что бросил блог, а просто потому что так получилось 🙂
Тексты про дедов морозов, использованные в первой части, уже сейчас (весной) не особо актуальны, но уж ладно 🙂 Всё равно не хочется зацикливаться на этом обзоре — надо идти дальше! Поэтому обзор будет не особо развернутый.
Сразу начну с чуть-чуть грустного: как ни старался воспользоваться встроенной функцией подсчета всех слов в массиве текстов — не получилось: экспорт происходит в неверной кодировке — на выходе краказямбуры 🙁 Попробуйте — может быть у вас получится:
В правой части выделяем с помощью кнопки Shift все тексты, потом заходим в меню Report/Count words/Selected documents. Дальше система предлагает выбрать директорию для сохранения файла в формате CSV. Однако результат экспорта — краказямбуры, вместо слов…
Ну да и ладно… Можно воспользоваться бесплатной программой WordStat и получить тот же результат, но в txt. Не жалко.
Итак. Что мы сделаем с нашими текстами для демонстрации возможностей Yoshikoder… Не будем заморачиваться — сделаем простейший словарь для подсчета встречаемости слов 2-х категорий в массиве текста и выгрузим в excel для сравнения представленности категорий.
Давайте посмотрим, какой из городов чаще упоминается в наших текстах — Москва или Вологда. Тексты про оба города в общем… Как вы понимаете, никакой особой гипотезы в нашем примере нет — просто пример. Мы могли бы сравнить использование слов совсем других категорий, как, например, в презентации про использование VBOpro и Yoshikoder VBPro&Yoshikoder сравнивают уровень тревожности и уровень оптимизма, проявленные в текстах. Но здесь нужны специальные русскоязычные словари — у меня их нет, да и я полагаю, что эта задача очень трудна для русского, а может и для английского языка. В общем просто посмотрим, о каком городе в наших текстах говорят чаще 🙂 Аналогичным образом мы могли бы сравнить частоту упоминания тех или иных персон или проблем той или иной области жизни и пр. пр. пр. пр. пр.
В общем давайте зайдем в меню Dictionary (словарь) / add category (добавить категорию).
Дадим ей название, и в поле description — описание, если требуется.
Дальше добавим все словоформы слова Вологда. !!! Тут важно: слова с маленькой и большой буквы для Yoshikoder — разные слова. Поэтому надо дублировать каждое слово, если только оно не пишется всегда с заглавной буквы, например, если это имя собственное. Кликаем по названию категории (Вологда) правой кнопкой и выбираем пункт Add pattern и вводим слово, которое будет искать система — проще использовать звездочку в конце слова, чтобы искать все словоформы. На скрине ниже на фоне уже есть категории и слова в них — не удивляйтесь — просто уже создал — не удалять же их 🙂
Так добавляем слова в обе категории. Получаем следующее:
Кстати, можно делать вложенные в категории подкатегории!
Теперь посмотрим на представленность слов во всём массиве текстов. Для этого справа выделим все тексты, зайдём в меню Report/Apply dictionary/selected documents
Выбираем директорию для сохранения файла. Открываем в excel:
Мы видим количество слов из каждого словаря в каждом из текстов. Видим сумму слов по всем словарям в столбце Total. Внизу по словарям можем подсчитать автосуммы по столбцу. Тем самым мы узнаем о каком из городов в нашем массиве текстов говорят чаще.
Таким образом, если категорий будет больше, можем применить к матрице многомерные методы анализа, сгруппировать их на основе корреляций и пр, например, как здесь. Нелишним будем вначале узнать частотное распределение слов, при этом воспользовавшись лемматизатором.
Если нас интересует, что конкретно говорят про Москву, нажимаем правой кнопкой на название категории Москва (могли бы посмотреть только по одному слову или вообще по всему словарю) и нажимаем make concordance.
Теперь в нижней части программы мы можем прочитать цитаты из текста, включающие слова категории «Москва»:
Также можно выгрузить concordance в html и excel. В Html выгрузилось с ошибками кодировки — опять же может что-то с моими файлами… Задать максимальное расстояние до и после слов из словаря в concordance можно через меню file/preferences/window — просто поставить число.
Еще можно сравнить представленность словарей в 2-х документах:
Словари можно создавать в excel и загружать в формате .ykd . Это актуально, Если у вас большой словарь. Так его будет намного удобнее сделать (или взять откуда либо и перевести в формат для Yoshikoder). Вот так можно сделать словарь:
Это XML таблица, если что 🙂 Потом просто сохраняйте её в расширении .ykd . Но проще сохранить свой небольшой словарь (dictionary/save dictionart as), открыть его экселем и уже его менять.
Еще можно подсветить в тексте слова из выделенной категории или из всего словаря. Для этого надо выбрать меню highlight/highlight entry. Вот что получится:
Также можно выгрузить словарь в html — dictionary/export dictionary/html — потом его в общем можно куда-то скопировать и пр…
Вот и всё про Yoshikoder. В общем и целом — отличная вещь 🙂 Жаль есть проблемы с кодировкой, но это мелочи.
Бай!
Большое спасибо, я отчасти воспользовался этими сведениями для написания курсовой и последующего выступления на конференции.
Рад, что материал оказался полезным 🙂
К «. Однако результат экспорта — краказямбуры, вместо слов…»
Результат лучше импортировать в ексел с помощью ДАННЫЕ-ПОЛУЧЕНИЕ ВНЕШНИХ ДАННЫХ-ТЕКСТОВЫЙ ФАЙЛ. В качестве разделителей выбирать запятые. Те же проблемы у JFreq. Плюс, обе программы написаны на Java.
Спасибо за полезную информацию, Станислав!
Здравствуйте! Спасибо за очень полезную информацию, по вашим статьям училась пользоваться программой с нуля. Хотелось бы, однако, уточнить по поводу тех самых краказямбур) Не понимаю, что хотели сказать в предыдущем комментарии. Не могли бы вы объяснить, где именно в программе надо искать эти данные, их получение и текстовый файл?
Здравствуйте, Елена 🙂 Открываете файлик в экселе через меню ДАННЫЕ/из текста (может называть несколько иначе в зависимости от версии excel). При таком варианте импорта всё должно быть ок