Лекта. Качественно-количественный контент-анализ. Часть третья. Матрица контент-анализа

Здравствуйте, уважаемые читатели блога о контент-анализе! В этой статье я расскажу Вам о следующем этапе проведения контент-анализа в ЛЕКТА — применении словаря к фрагментам текстового массива и получении базовой матрица контент-анализа. Эта публикация достаточно короткая — материал здесь простой, но важный. С матрицей контент-анализа можно продолжать работать не только в ЛЕКТА, но и в таких статистических пакетах, как SPSS, Statistica и других.

Итак, приступим к работе с фильтрами — нашими папками, содержащими наборы лексем. Они станут переменными при дальнейшей работе по проведению факторизации матрицы контент-анализа. Для того чтобы создать единый набор таких фильтров нажмём на кнопку «добавить все папки как новые фильтры»

Переходим на закладку ФИЛЬТРЫ и видим развёрнутые папки с лексемами. Сразу же нажимаем на «крестик», чтобы удалить первый пустой фильтр, формируемый системой до добавления фильтров пользователями.

Здесь мы можем редактировать наш набор фильтров, однако это бывает необходимо ОЧЕНЬ редко, поэтому сейчас мы не будем останавливаться на этом функционале ЛЕКТА. Переходим вновь в закладку ФРАГМЕНТЫ. Здесь нам необходимо отметить каждый из фрагментов текстов галочкой. Для этого кликнем по соответствующей кнопке в меню. Этот шаг очень важен! не забудьте про него!

Теперь, когда все фрагменты выделены, применим наши фильтры — наборы лексем — к ним. Для этого выберем пункт меню «применить фильтры». Далее выбираете название и директорию для будущей матрицы, содержащей результат применения фильтров к текстам.С нетерпением ждём обработки материала…

Обычно с массивом текста в 100-200 страниц операция длится около 30 секунд — минуты. С массивом англоязычного текста на 57 000 страниц (один из моих замеров, проведённых в рамках диссертационной работы) ЛЕКТА «возилась» около 12 часов. Для таких массивов нужен как опыт проведения контент-анализа в ЛЕКТА так и неплохой компьютер. Для моего несколько устаревшего ноутбука это было настоящее испытание.

Итак, мы дождались обработки массива. Находим наш файл. Сейчас он не имеет расширения. Кликаем по нему 2 раза и открываем с помощью EXCEL. Вот что мы видим: (я убрал почти все переменные, чтобы показать матрицу полностью в ширину)

В первом столбце отображается порядковый номер фрагмента текста. Во втором — код исходного текста фрагмента. В третьем — число слов во фрагменте. Далее идут названия папок, включивших себе актуальные лексемы, выбранные нами в ходе работы над словарём. Соответственно на пересечении строк и столбцов указано, какое количество раз встречается любая из лексем в папке словаря во фрагменте текста. Столбец % для нас не будет актуален. И последний столбец содержит сами фрагменты текстов.

Как вы понимаете, уже в EXCEL методом простой сортировки и базовых функций с этой матрицей можно плодотворно работать. Однако, наша работа будет глубже и продуктивнее. В следующей статье я расскажу Вам о том, как идентифицировать отдельные тематические блоки в массиве текстов — найти группы сильно коррелирующих лексем и фрагментов текстов с помощью факторного анализа. Эта работа будет проведена в программе STATISTICA, хотя в новой версии ЛЕКТА модуль факторного анализа позволяет не прибегать к стороннему софту.На сегодня это всё.

Спасибо за внимание и всего доброго!

Автор

Алексей Рюмин

Здравствуйте, уважаемый гость блога! Меня зовут Алексей Рюмин. На этом блоге мне хочется поделиться с Вами материалами о контент-анализе. Надеюсь, они окажутся полезными и интересными Вам. Приятного прочтения блога! Посмотреть все записи автора Алексей Рюмин

Автор

Алексей Рюмин

Один комментарий к “Лекта. Качественно-количественный контент-анализ. Часть третья. Матрица контент-анализа”