Лекта. Качественно-количественный контент-анализ. Факторный анализ в Statistica. Часть четвёртая

Здравствуйте, уважаемые читали блога о контент-анализе. В этой статье из серии о программе ЛЕКТА я расскажу вам как обрабатывать базовую матрицу контент-анализа в программе STATISTICA. Обработка будет производиться с помощью факторного анализа. Подчеркну, что в новой версии ЛЕКТА можно проводить факторный анализ без использования сторонних программ типа Statistica или SPSS. Однако, у меня не руках нет новой версии ЛЕКТА, поэтому объяснять принцип идентификации ключевых тематических блоков текстового массива буду на примере программы Statistica. Не пугайтесь — ничего сложного здесь нет, особенно если не лезть в дебри. Дебри оставим для математиков — пусть копаются. Они часто путают математику с реальностью 🙂 Нам эти иллюзии не нужны — математические дебри, как мне кажется, нам ни к чему. Обычно на практике любой замер производится довольно просто. Сложность и дебри актуальны часто в случае необходимости пустить пыль в глаза заказчику. Я такими делами никогда не занимался, ибо работать честно намного приятнее… Итак, поехали: факторный анализ в Statistica!

Объяснять факторизацию буду с использованием Statistica 8 в англоязычной версии. В подробности вдаваться не буду — просто повторяйте те же действия, что и в инструкции, и всё получится! Напомню — суть этой работы на данном этапе сводится к определению главных тем текстового массива. Выражены они будут набором переменных (наших единиц счёта — групп лексем) и набором фрагментов текстов по каждой из тем.

Открываем нашу матрицу контент-анализа в ECXEL. Далее нам потребуется скопировать только ту часть таблицы, в которой содержатся показатели частотности. То есть мы не будем копировать первые три столбцы, последний, содержащий фрагменты текстов, предпоследний столбец и первую строку — копируем только столбцы, в которых отражена частотность встречаемости переменных.

Тем временем открываем статистику и создаём новый лист, кликнув по иконке CREATE

Появляется рабочий лист — пустая таблица. Ставим курсор в первую ячейку первой строки, нажимаем правую кнопку мыши, выбираем опцию PASTE SPECIAL (специальная вставка). Выбираем тип вставки TEXT. Нажимаем ОК. Довольно странно, что делать нужно так, но это помогает избежать некоторых ошибок при вставке.

Видим основную часть нашей матрицы, вставленной в рабочий лист STATISTICA. Теперь открываем пункт меню STATISTICS, подменю MULTIVARIATE EXPLORATORY TECHNIQUES и далее пункт FACTOR ANALYSIS.

Кликаем по кнопке VARIABLES и выбираем опцию SELECT ALL — то есть выбираем все переменные из нашего набора — в данном примере все 219 штук. Обычно их бывает меньше — 100-150. Другими словами, мы задействуем для анализа все созданные нами наборы лексем — все папки. Нажимаем ОК и потом снова ОК.

Далее нам предстоит выбрать оптимальное количество факторов (микротем) в нашей факторной модели, своеобразной структуре информационного пространства изучаемого предмета. По умолчанию нам предлагается выбрать 2 фактора — нас это явно не устраивает, так так такую модель будет очень трудно анализировать и она будет слишком генерализована, каждый из факторов будет содержать слишком много переменных — например 100 и 119. Для удобства анализа нам надо добиться иного распределения переменных — приблизительно 4-8 на каждый из факторов. Учитывая то, что у нас всего 219 переменных, факторов должно быть 27-54 или чуть больше или чуть меньше. Теперь определим оптимальное количество факторов. Для этого впишем в поле MAXIMUM NO OF FACTORS например число 60 (с запасом). Нажмём ОК.

Перейдём в закладку EXPLAINED VARIANCE и кликнем по кнопке EIGENVALUES.

Открывается таблица. Из неё копируем первый столбец (EIGENVALUES) и вставляем его в новый лист EXCEL, желательно, в новую книгу — наш основной рабочий документ. Вставляем в первый столбец — курсор на A1

Теперь в ячейке B2 напишем формулу =A1-A2 и «протащим» формулу на всю длину столбца со значениями. Скопируем полученные значения (дельты) и вставим их в строку (транспонируем). Такая операция производится через специальную вставку. Выберем вставить «значения» и поставим галочку на «транспонировать».

Теперь из этой линейки значений построим график. Обводим все значения и выбираем диалоговое окно построения диаграмм — тип диаграммы — график.

Нам надо выбрать значение на графике, после которого происходит резкий спад — снижение объясняющей способности модели. Сейчас мы видим, что таким значением может быть 7 (7 факторов), однако, как ране уже было сказано, нам недостаточно такого числа факторов, поэтому нам надо растянуть график вниз и искать другие спады. Растягиваем… Получаем что-то вроде этого:

Запредельной точности нам не требуется. Можем выбрать, например, 26 факторов. Итак — 26 факторов будут адекватно объяснять тематический разброс информационного пространства изучаемого предмета. Возвращаемся в Statistica, нажимаем CANSEL и вписываем уже не ориентировочное количество факторов (не 60), а определённое, оптимальное — 26. (сразу подчеркну — на этом этапе я предпочитаю проводить работу несколько раз, дабы получить несколько вариантов матриц факторного анализа с разным количеством факторов — просто подстраховаться на случай получения малопригодной для работы матрицы). Вписав 26, нажимаем ОК.

В закладке LOADINGS выбираем тип факторного анализа — VARIMAX NORMALIZED (меню FACTOR ROTATION).

Кликаем на кнопку Summary Factor loadins и получаем первую матрицу факторного анализа — матрицу факторных нагрузок. Копируем её и вставляем на новый лист в ECXEl (курсор на B2)

Переходим в закладку SCORES и кликаем по кнопке FACTOR SCORES. Получаем вторую матрицу и вставляем её на новый лист в EXCEL — курсор на D2.

Теперь из нашей исходной матрицы нам необходимо взять список названий переменных.Вначале скопируем их, а далее с помощью транспорирования поместим их вертикально в лист матрицы факторных нагрузок в первый столбец — курсор при вставке на A2. Во второй матрице нам необходимо заполнить первые 3 пустых столбца и вставить 2 после матрицы. В первые 3 вставляем значения из первых трёх столбцов исходной матрицы контент анализа. В последние 2 также вставим значения и текст последний двух столбцов. Из матрицы факторных нагрузок удалим последние 2 строки (суммы) — они нам не потребуются в работе. К обоим матрицам добавим шапки F1, F2… F26. Ниже приложу файл с матрицами, так как столько скриншотов делать просто лень, и смотреть их Вам будет неудобно 🙂

матрицы факторного анализа

На сегодня это всё! Не беспокойтесь о том, что выглядит это непросто. Просто следуйте алгоритму и результат приятно обрадует! В следующей статье я расскажу о небольшой обработке этих матриц в excel. Это уже финишная прямая, к слову! Дальше — проще!

Спасибо за внимание!

Лекта. Качественно-количественный контент-анализ. Факторный анализ в Statistica. Часть четвёртая

Автор

Алексей Рюмин

Один комментарий к “Лекта. Качественно-количественный контент-анализ. Факторный анализ в Statistica. Часть четвёртая”