Применение ABC-анализа в контент-анализе

Здравствуйте, уважаемые читатели блога о контент-анализе! Сегодня мы с вами поговорим об очень популярной методике оценки актуальности, представленности, активности сегментов той или иной совокупности предметов, выявления таких групп. Методика носит название ABC-анализа и берёт своё начало из принципа Парето, который гласит — 80% нашей работы приносит 20% результата, а 20% работы приносит 80% результата. Либо 80% номенклатурных единиц приносит 20% прибыли, а 20% номенклатурных единиц — 80% прибыли. В нашем случае 20% лексем описывают 80% информационного пространства, а 80% лексем описывают 20% информационного пространства.

Суть методики сводится к определению принадлежности части частей совокупности к группам A, B и C. каждая. Если бы группы было всего две — A и B, то группа A включала бы 20% лексем  и описывала бы 80% информационного пространства текстового массива. Группа B включала бы 80% лексем и описывала бы 20% информационного пространства. В данном случае речь идёт о доминирующей группе тем, описанных лексемами, и периферийных группах тем, представляющих меньший интерес.

При этом в рамках ABC анализа выделяют три группы. Анализ даёт понять, что лексемы группы A представляют наибольшую актуальность в словаре, а потому отражают ключевые тематические блоки информационного пространства, хотя при этом, данные лексемы и темы могут быть весьма генерализованы; лексемы группы B также важны, более конкретны, но уже не доминируют в информационном пространстве; лексемы группы С малоактуальны и, возможно, правильнее исключить их из словаря контент-анализа либо при качественной интерпретации фрагментов массива уделять им наименьшее внимание и подчёркивать важность верификации данного материала.

Итак. Чтобы было понятнее ниже пример контент-анализа с использованием ABC-анализа.

Чтобы далеко не ходить, проведём экспресс контент-анализ первой части книги, одним из авторов которой являюсь, «Информационная война в Интернет: западные обыватели о России».

Выгружаем текст, например, в программу ЛЕКТА в формате txt. Создаём словарь наиболее часто встречающихся слов и выгружаем в Excel. Эту же операцию можно проделать и в других программах — смотрите информацию на блоге. Вот что мы получаем:

abc1

Всего выбрано 47 слов — каждый слово также включает и свои словоформы. Слова отсортируем по убыванию частоты встречаемости. Под значениями частотности рассчитаем сумму значений по всему столбцу. В следующем столбце рассчитаем процент частоты каждого из слов в общем объёме слов.

abc2  abc3В следующим столбце рассчитаем кумулятивный процент — то есть постепенно будем суммировать процент по строкам. Процент в первой строке (единица счёта — «Россия») оставим прежним — просто скопируем. Во второй строке (единица счёта «государство») просуммируем процент «государства» с процентом предыдущей единицы счёта («Россией»). Протаскиваем значения до низу таблицы. Внизу столбца «кумулятивный процент» получаем значение 100. То есть суммарный процент всех единиц счёта — 100%.

abc4

Теперь нам надо выделить группы актуальности единиц счёта — A, B и C. Здесь опишу только 2 способа, наиболее популярных, хотя их больше.

Первый самый простой. Группа A имеет кумулятивный процент 80, группа B — 80+15, а группа C — всё остальное. Вот какую градацию единиц счёта мы получаем:

abc5Группа единиц счёта A — представляет наибольшую актуальность, B — несколько меньшую, но она более конкретна, C — имеет наименьший вес в текстовом массиве и, возможно, имеет смысл от неё отказаться. Особенно актуален такой анализ, если в набор единиц счёта входят все слова массива, а не 47 как в нашем упрощённом примере. В этом случае от группы C вне всяких сомнений стоит избавиться, так как в основном это лексемы имеющую частоту 1-3 при работе со сравнительно небольшим массивом — около 200-500 страниц текста. Такая работа, однако, достаточно трудоёмка — буду искать средства её ускорения и автоматизации (все словоформы необходимо собрать в семантические группы, например, слово, слова, слову должны быть объединены).

Теперь второй метод идентификации групп в ABC-анализе. Называется он методом касательных. Работать мы будем с тем же документом EXCEL — со столбцом «кумулятивный процент».

Уберём столбцы «группа», «частота» и «процент от общего». Построим простой график как на рисунке ниже:

abc6

Это кривая Парето. Не предел мечтаний, но всё же годится для общего обзора метода. Проведём линию, соединяющую нулевую точку с завершением кривой Парето, как на рисунке ниже.

abc7

Теперь проведём касательную к кривой Параллельную добавленному отрезку.

abc8Проведём перпендикуляр к оси X, проходящий через точку пересечения касательной и кривой Парето. Так мы выделили группу A.

abc9

Теперь соединим точку пересечения кривой Парето и касательной к ней с завершением кривой Парето. Также проведём касательную к кривой, параллельную данному отрезку (соединяющему точку пересечения кривой Парето и касательной к ней с завершением кривой Парето). Снова построим перпендикуляр к оси x, проходящий через точку пересечения второй касательной и кривой Парето. Так мы выделили группы B и C. Слова, вошедшие в каждую из групп расположены на ОСИ X.

abc10

Градация несколько иная — лексемы распределились иначе. Какому из подходов доверять — вопрос спорный и трудный. Мне представляется, что он отлично подходит для идентификации лексем группы C и их отсеивания.

Собственно это всё по ABC-анализу в контент-анализу. В следующей статье поговорим об XYZ-методе в контент-анализе. Спасибо! Всего доброго!

P.S. Прикладываю файл расчётов ABC-анализа: abc

Print Friendly, PDF & Email

Автор

Алексей Рюмин

Здравствуйте, уважаемый гость блога! Меня зовут Алексей Рюмин. На этом блоге мне хочется поделиться с Вами материалами о контент-анализе. Надеюсь, они окажутся полезными и интересными Вам. Приятного прочтения блога!