Лекта. Качественно-количественный контент-анализ. Часть первая

Здравствуйте, уважаемые читатели блога о контент-анализе. Вашему вниманию предлагаю вторую статью о программе ЛЕКТА, производящей качественно-количественный контент-анализ текстовых документов: публикаций в СМИ, глубинных интервью, фокус-групп, форумов, блогов, нормативно-правовых актов и многого другого.

В этой статье мы с Вами поговорим о двух аспектах исследования, проводимых методом контент-анализа:

О наборе текстового массива
О загрузке и первоначальной механической обработке массива в программе ЛЕКТА

Хочу сразу сказать — в этой серии статей я хотел бы резюмировать свой опыт работы с программой ЛЕКТА. Я обладаю неплохим опытом работы в ней (простите, если повторяюсь). Это более 30 замеров, проведённых лично мной и руководство более чем 100 студенческими и аспирантскими исследованиями. За это время мне удалось достаточно хорошо узнать, КАК ИМЕННО СТОИТ РАБОТАТЬ с программой ЛЕКТА. Продукт это уникальный, и он позволяет провести анализ текстового массива ОТ НАЧАЛА И ДО КОНЦА, при условии наличия самого текстового контента и адекватно работающего МОЗГА 🙂 Ещё замечу — для России этот продукт уникален, и без всяких сомнений, достоин Вашего времени для его освоения.

Итак, «поле».

Для сбора текстового массива для проведения контент-анализа в программе ЛЕКТА (или в ином пакете) используются разные подходы и они сильно варьируются в зависимости от Вашего

бюджета
задач
исследовательских предпочтений

Причины для вариаций могут быть и иными. В нашем конкретном примере мы с Вами будем анализировать глубинные интервью. Приводить здесь гайд (план интервью, включающий набор тем и подтем для разговора с респондентом, я не стану. О составлении гайда и о том, чем он собственно является, я напишу в других постах блога. В данном случае, порывшись в недрах своего компьютера, я нашёл именно этот массив. Почему бы не поработать именно с ним? 🙂 Однако, сразу оговорюсь — глубинные интервью — бесконечно удобная и информативная работа. Сами интервью берутся на основе гайда — чёткой структуры, что в свою очередь помогает нам при работе в ЛЕКТА получить отдельные сегменты информационного пространства отношения к услуге, продукту, социальному явлению, процессу, политической персоне и тд. и т.п. Вместе с тем, Вы можете работать и с другими массивами — главное понимать алгоритм работы с программой. Снова подчеркну — понять Вы его сможете полностью лишь после проведения исследования от начал и до конца. Так всегда было в рамках моей педагогической работы. Надеюсь, серия этих статей, поможет Вам разобраться с алгоритмом сразу же после прочтения. Причин так не думать не вижу — читайте всю серию и разберётесь, после чего приступайте к работе над своим собственным замером. Будут вопросы — пишите — с удовольствием отвечу. Чтобы было понятнее в перспективе хочу записать видеоуроки и выложить их на блоге, но пока эта работа ещё только задумывается.

Учитывая то, что не у всех есть в распоряжении набор глубинных интервью (10-20 суммарным объёмом 50-100 страниц будет уже достаточно для проведения контент-анализа в ЛЕКТА), я хотел бы вкратце остановиться на подборе иных массивов текста и подготовке их к работе. К слову, тексты могут быть на русском, английском, немецком языках ( с другими массивами, увы, не работал).

Публикации в СМИ. Наиболее важными аспектами при работе с этим видом контента являются единство жанра и единство объёма. Если Вы набираете публикации из СМИ в электронном формате, не смешивайте информационные заметки на 5-7 строк и развёрнутые публикации на 10-15 страниц текста в формате word. Также не совмещайте в массиве текстов статьи из СМИ и книги. Объём публикаций должен быть приблизительно равен. Также не надо соединять в едином массиве статьи юмористического, художественного, научного, юридического или иного жанра. Выберете уже что-то одно 🙂 По опыту скажу — в ЛЕКТА лучше всего работать с публицистикой — СМИ, по тематике конгруэнтными массовой культуре, содержащими и эмоциональную и рациональную составляющую.

Для загрузки, например, статей, подойдёт поисковик типа google, или же поиск по интернет изданию. Однако, есть и более удобные, хотя и платные сервисы, типа EASTVIEW, с помощью которого Вы можете скачивать одновременно по 20 статей на нужную тему. Так за 2-3 часа работы можно набрать контента на 1000-1500 статей на интересующую Вас тему. Есть и аналоги — гугл Вам в помощь 🙂
Фокус группы.Тут всё так же как и интервью. Идеальный вариант для контент-анализа в ЛЕКТА
Интернет-переписка. Опять же, лучше её строить по заранее продуманному гайду и, опять же, это прекрасный массив для работы.
Интернет-форумы.Здесь придётся основательно поработать. Прежде всего Вам надо скачать форум. Если объём значителен, то вручную копировать текст общения на форуме нецелесообразно. Лучше воспользоваться специализированным софтом. Это, например, программа Teleport. Далее Вам потребуется конвертировать HTML файлы в TXT, например, в программе HTMLasTEXT и потом, объединить файлы для дальнейшей обработки (удалении сохранившихся html тегов), например, в программе Advanced File Joiner. Работу с ними в будущем опишу на блоге. Аспектов тут масса, в частности разбиение текстов на элементы, соответствующие самим сообщениям на форуме (для этого можно использовать функцию разбиения на фрагменты ##SL в ЛЕКТА). Если не хотите с ними разбираться — в форме обратной связи предлагайте варианты сотрудничества 🙂
Блоги.При внушительном объёме блога (блогов) аналогично предыдущему пункту.
Нормативно правовые акты — очень удобный вариант работы, учитывая прозрачность семантик лексем, однако, даёт сравнительно мало материала для работы.
Книги. Не пробовал: экспериментируйте да обрящите 🙂

Идём дальше.

На руках мы имеем несколько десятков (сотен, тысяч, десятков тысяч, сотен тысяч и т.д.) статей. Для того, чтобы нам было удобнее работать в дальнейшем нам было бы неплохо составить реестр всех текстовых документов (просто перечень материалов в формате таблицы с указанием некоторых данных о них — дата публикации, наименование СМИ. Либо пола респондента, его возраста. Либо адреса сайта, с которого взята статья, её автора (блоггера, например) и т.д.). Вот так такой реестр может выглядеть:

Соответственно, при работе с другими массивами текста, параметры для реестра могут варьироваться. Подчеркну самое важное — чем больше их будет — тем лучше.

Как Вы видите, среди прочих параметров здесь присутствует параметр КОД — здесь закодированы значения всех параметров, присутствующих в таблице. Этим кодом и будут называться наши документы: каждый текстовый документ (а мы их будем сохранять именно в формате txt, нам надо будет назвать этим кодом. То есть Вы открываете блокнот — вставляете в него текст документа и сохраняете его под этим названием (код=название документа). Если документов больше 1000, например, то работа становится весьма кропотливой. Это возможно, если вы, например, анализируете статьи из СМИ и скачали их ОЧЕНЬ МНОГО. Тут для создания кодов Вам на помощь придут формулы EXCEL (например, =СЦЕПИТЬ и +ЗАМЕНИТЬ — для объединения значения параметров в ячейках и удаления лишнего).

Итак, мы с Вами получили набор текстов в txt формате. Что-то типа этого:

Загрузим их в программу ЛЕКТА. Для этого нажмём на кнопку «добавить текстов». Выберем тип файлов TXT

Теперь выберем все интересующие нас файлы в нужной директории диска, например, через функцию Ctrl A. Нажимает ОТКРЫТЬ. Файлы загрузились.

Сразу удалим «пустой файл», формирующийся системой по умолчанию. Нажмём на кнопочку с изображением крестика.

Мы видим, что ЛЕКТА показывает все наши статьи, отображая коды, созданные нами, а также число слов в тексте. Нажав на код, мы увидим справа текст файла:

Сейчас наша задача заключается в том, чтобы разбить тексты на приблизительно равные фрагменты. ЭТО ОЧЕНЬ ВАЖНО ДЛЯ ПРОВЕДЕНИЯ ДАЛЬНЕЙШЕГО АНАЛИЗА. Если фрагменты будут сильно варьироваться по величине, то сегментировать информационное пространство будет просто невозможно. Итак, нажимаем на кнопку ОБРАБОТКА и выбираем РАЗБИТЬ НА ФРАГМЕНТЫ.

Ставим галочку на РАЗБИТЬ ПО РАЗМЕРУ и выбираем размер: 50 +- 20. Нажимаем OK. Всё. Наши тексты разбились по размеру в рамках указанного диапазона. Однако разбились, возможно, и не все, и нам надо закончить разбиение вручную (программа не всегда может справиться с этим самостоятельно). Для ручной разбивки находим фрагменты не разбившиеся на части: они отмечены знаком «-«. Кликаем по ним и в правой части программы приблизительно по середине фрагмента и желательно в конце абзаца или предложения (так, чтобы разделить мысли высказывания) и нажимаем пробел либо кнопку выше:

Так поступаем с фрагментами, которые явно сильно выходят за рамки указанного диапазона числа слов.

На этом на сегодня всё:-)

В следующей статье поговорим о КЛЮЧЕВОМ этапе работы — составлении словаря контент-анализа.

Всего доброго!

Лекта. Качественно-количественный контент-анализ. Часть первая

Автор

Алексей Рюмин