Здравствуйте, уважаемые читатели блога о контент-анализа!
Я решил не следовать ранее оглашённому формату публикаций на блоге — замучила бесконечная прокрастинация (просто не хватает сил ещё и бесплатные замеры для блога делать))) Переоценил свои силы… Замеров хватает и без того 🙂
Итак, я просто опишу функционал программы, а если вы заинтересованы в проведении контент-анализа, то без проблем всё поймёте и используете для своих исследований.
Итак, саму программу можно скачать ЗДЕСЬ. Программка абсолютно бесплатная, но жутко хорошая 🙂 Скачали, установили. Интерфейс программы без какого-либо контента выглядит так:
Давайте загрузим какой-нибудь небольшой массив текстов. Тексты возьмём из яндекс новостей — блок называется «Дед Мороз сменил имидж ради эстафеты олимпийского огня». Если интересно, что за инфоповод — погуглите))). Ну или вот одна статья из блока:
В блоке статей на 20.10.2013 к 10 утра 96 публикаций. Я добавлю 40 — все мне копировать лень.
Перед тем как загружать тексты, стоит создать новый проект, а не работать с автоматически созданным проектом под названием Default. Для этого надо выбрать меню File/New Project, дать название проекту и небольшое описание:
Нажимаем ОК. Возвращаемся к текстам.
Каждую публикацию добавьте в отдельный файлик txt, сохраняя в кодировке UTF-8. Кстати, стоит сделать небольшой реестр публикаций — таблицу EXCEL, в которой будет указан код публикации (номер, код СМИ, дата публикации и пр. (он же — имя txt файла с текстом публикации) и в отдельном столбце — названия публикаций.
Для загрузки текстов зайдём в меню Document/Add documents
и далее выберем файлы для загрузки
Ещё одно дополнение по документам — если документы у вас в другой кодировке и/или на другом языке, вы можете зайти в Document/Edit documents и выбрать другую кодировку для документов и другой язык.
НА скрине выше видно, что текст документа отображается некорректно. Это произошло из-за того, что документ был сохранён в кодировке ANSI. Я загрузил 2 таких документа (41.txt и 42.txt). Выберем их в блоке документов справа:
Теперь перейдём в меню Document/Edit documents и поменяем кодировку на Windows 1251. Язык оставим прежним. В общем кодировку мы на самом деле не меняем — мы настраиваем программу на восприятие документа, как документа в кодировке windows 1251.
Нажмём ОК и посмотрим, отображается ли теперь текст документов:
Отл — работает 🙂
Кодировку и язык по умолчанию можно задать в меню File/Preferences, то есть все загруженные документы по умолчанию программа будет воспринимать как документы в заданной в настройках кодировке.
Закладка Tokenizers актуальна при решении задачи токенизации текстов. Об этом пока не будем говорить.
Есть ещё одна возможность загружать документы — этот способ в Yoshikoder именуется импортом. В данном случае вы загружаете документы по одному, но при загрузке задаёте параметры его восприятия программой — кодировка, язык, шрифт. Актуально, если вы хотите быть полностью уверены в том, что добавленный документ будет отображаться корректно. Чтобы воспользоваться этой функцией, перейдите в меню Document/Import document.Выбираем документ для загрузки, после чего задаём нужные параметры для восприятия документа программой. Ниже задана неверная кодировка документа:
Теперь выберем верную кодировку документа:
Загрузить тексты в заданной кодировке можно также с помощью этой кнопочки:
А с другими кодировками и на других языках вот с помощью этой кнопочки:
Также в меню document можно удалить неподходящие документы. Для этого перейдите в меню Document/Remove document. Удалять, также как и менять кодировки можно сразу по нескольким документам.
Да, кстати, периодически стоит сохранять результаты работы в Yoshikoder — для этого надо выбрать меню File/Save project.
С загрузкой документов в программку разобрались. Не хочу, чтобы статья стала необъятной по размеру — разделю ка её на кусочки 🙂
До встречи в следующей части обзора Yoshikoder. В ней будем говорить об инструментах аналитики программы.
Бай!
Жду продолжения… Нашёл много интересного в вашем сайте.
Очень бы хотелось увидеть следующую часть обзора.
И я тоже очень-очень хочу прочитать продолжение! просто и понятно написано, все по делу. Отличный сайт с большим количеством полезной информации!
Спасибо 🙂
Обязательно напишу, как свободное время появится 🙂