Лекта. Качественно-количественный контент-анализ. Часть вторая. Словарь

Здравствуйте, уважаемые читатели блога о контент-анализе! Продолжаю писать цикл статей о программе ЛЕКТА. В этой статье я расскажу вам о том, как в ЛЕКТА мы можем составить словарь контент-анализа. Этот этап очень ответственный и достаточно специфический — грамотное составление словаря требует опыта такой работы. Составляя словарь впервые, исследователь может допустить ошибки, которые помешают дальнейшей работе над замером.

Итак, что же такое словарь контент-анализа?

Под словарём в данном случае мы будем понимать набор слов и их словоформ, отражающих те или иные микротемы, микросюжеты, формирующие ключевое тематическое наполнение информационного пространства, выраженное массивом текста. В нашем случае, в случае с работой в ЛЕКТА нас будут интересовать те слова, которые наиболее часто встречаются в тексте, а также обладают чёткой семантикой. Слова, входящие в словарь, должны быть конкретны и высокочастотны — это 2 наиболее важных требования к единицам счёта в рамках контент-анализа в ЛЕКТА.

Перейдём в интерфейс ЛЕКТА на закладку СЛОВАРЬ. В появившемся диалоговом окне-предупреждении о возможности потери текущих данных кликаем YES.

create  create1

По умолчанию все слова массива, отображаемые справа, отсортированы по алфавиту. Вначале идёт латиница, потом кириллица.

sort1

Наша задача на этом этапе заключается в том, чтобы выбрать наиболее часто встречающиеся слова массива. Для этого нам надо кликнуть по заголовку столбца ЧАСТОТА. Теперь наверху оказались слова, чаще всего встречающиеся в наших текстах. Разумеется, в первую очередь это предлоги, союзы и другие неинформативные части речи.

sort2

Приступим к выбору слов — единиц счёта контент-анализа. Напомню, что слова должны соответствовать 2-м критериям — они должны часто встречаться в тексте, и они должны иметь относительно чёткое значение. Станет понятно на примере: пропуская все слова, не имеющие точного значения (союзы, предлоги и т.д.) и опускаясь ниже, доходим до слов, обладающих более чёткой семантикой. Нас интересуют слова, которые могут быть употреблены с одинаковым или близкими значениями в разных контекстах. Так на рисунке ниже мы видим часто встречающееся слово ВРЕМЯ и также часто встречающееся слово РАЙОНЕ. Слово ВРЕМЯ явно не имеет чёткого значения — может быть использовано в разных контекстах с разными значениями (трудное время, время от времени, во время и т.д.).


Зная, что наши тексты о социально-экономической действительности города Нижнего Новгорода, мы можем сделать вывод о том, что слово РАЙОН имеет достаточно определённую семантику и используется в массиве текстов чаще всего в единственном значении — синонимично ТЕРРИТОРИИ. Для того, чтобы сделать своеобразную закладку этого слова надо кликнуть по нему и нажать пробел. Закладка отобразиться выше. Таким же образом, постепенно опускаясь вниз, (двигаясь к менее частотным лексемам) мы добавляем закладки и к другим единицам счёта. Число таких закладок может быть любым. Оптимально от 70 до 150. Однако я работал со словарём и в 299 единиц счёта, но это был контент-анализ 57 000 страниц текста. Ещё отмечу — двигаться вниз лучше используя стрелочку ВНИЗ справа — так переходы будут плавными и частотность будет снижаться постепенно. И ещё — не бойтесь сделать одинаковые закладки — работа со словоформами пойдёт далее.

choise1

Итак, допустим мы насобирали около 100 закладок. Я, для примера пока набрал только 15-20. Частота не должна быть ниже 8-12 употреблений слова (суммарно со словоформами, но об этом ниже). Выглядит это примерно так:

choise2

Перейдём к работе с словоформами — кликнем по заголовку столбца ЛЕКСЕМА. Наши слова отсортировались по алфавиту. Кликнем по самой первой закладке слева, с которой и начнём работу. И вот мы видим все словоформы слова РАЙОНЕ — в моём примере это первая закладка. Принцип работы на этом этапе заключается в том, чтобы создать папки, в которые мы поместим все словоформы слов, вошедших в закладки. Для этого кликнем по слову РАЙОНЕ в закладке и нажмём на кнопку выше — СОЗДАТЬ ИМЕНОВАННЫЕ ПАПКИ ИЗ ВЫДЕЛЕННОГО.

choise4

Слева появляется папка с названием РАЙОНЕ и числом слов (пока только слов «районе») в ней. Кликаем по ней, тем самым как бы заходя в неё. Кликаем в нижнем дубле перечня папок (всего их 2 — так работать удобнее — в верхней части Вы работаете с общим словарём и закладками, а в нижней с отдельными папками). Теперь нажимаем на кнопочку ВНИЗ, перемещая лексемы из общего словаря в папку:

choise5Так нам надо перенести все лексемы из верхней части экрана в нижнюю — из общего словаря в конкретную папку. Подчеркну, что слова должны иметь единую семантику, ведь эту папку мы будем использовать в дальнейшем как единую единицу счёта. То есть слова  могут иметь и разную семантику, и нам нужно включать в словарь максимально близкие по значению слова. Обычно это бывают все словоформы, но встречаются и исключения, особенно при работе с большими массивами текста.

Если Вы ошиблись  и включили в папку лишнее, неконгруэнтное семантике слово, просто нажмете на него в микрословаре папки и далее используйте кнопку ВВЕРХ — слово вернётся в базовый общий словарь.

choise6

Ещё хотел бы обратить Ваше внимание на то, что работу можно ускорить, хотя при этом, возможно, она будет сделана не столько качественно.Обведя несколько слов в базовом словаре, зажав левую клавишу мышки, система  сама определит их общую часть, которую мы можем включить в словарь. Например, это будет слово «РАЙОН*» и все слова, начинающиеся с РАЙОН попадут в папку. При этом уже не обязательно отдельно включать в словарь все словоформы.

choise7

Переходи к следующей закладке и действуем по аналогии: создаём новую папку и переносим в неё словоформы лексемы из базового словаря. Так получаем 70-150 папок. Сейчас нам необходимо избавиться от дублей — похожих папок, объединив их. Для этого выберем, например, папки «Горький» и «горького». Учитывая то, что это старое название Нижнего Новгорода, можно предположить что слова имеют единую семантику. Используя как и ранее кнопки со стрелкой для перемещения лексем, соберём все лексемы в единую папку.

choise9

Пустую же папку просто удалим — нам она не нужна.

choise10

Ещё раз проверим все папки на наличие дублей. Сохраним проект (меню Проект/Сохранить проект). Да, забыл сказать — словари можно отдельно загружать и отдельно сохранять без сохранения всего проекта. Это может быть актуально, если Вы решили применить словарь к другому массиву текстов.

На этом на сегодня всё! Спасибо за внимание! В следующей статье поговорим о применении словаря к фрагментам текста. Всего хорошего!

Print Friendly, PDF & Email

Автор

Алексей Рюмин

Здравствуйте, уважаемый гость блога! Меня зовут Алексей Рюмин. На этом блоге мне хочется поделиться с Вами материалами о контент-анализе. Надеюсь, они окажутся полезными и интересными Вам. Приятного прочтения блога!