Здравствуйте, уважаемые читатели блога о контент-анализе!
Сегодня мы поговорим на тему, которую ранее затрагивали, но не останавливались на ней подробно. Это тема мониторинга СМИ и средств реализации мониторинга. Учитывая то, что сервисов, предоставляющих возможность автоматизированного проведения мониторинга СМИ немало, на блоге я остановлюсь только на 2-х из них. Пожалуй, этого будет достаточно, и в силу того, что сервисы имеют схожий функционал. При этом для реализации контент-анализа одна из ключевых задач — сбор массива текста. Данные сервисы помогают нам собрать массив, достаточно гибко варьируя выборку в случае необходимости. В этой связи подробного обзора сервисов здесь не будет представлено — с детальным описанием их работы можно ознакомиться в справке, находящейся на сайтах сервисов мониторинга. В этой статье мы поговорим о сервисе PUBLIC.RU
Давайте быстро пробежимся по основному функционалу сервиса.
Войдя в раздел меню ПОИСК, в левой части экрана мы сможем увидеть поле введения поискового запроса. Галочку с «поиска с учётом морфологии» снимать не советую — эта функция позволяет учитывать словоформы заданных слов при поиске статей.
В правой части мы можем выбрать источники материалов и задать временной интервал публикаций.Например, можем искать только в центральных СМИ за 2000-20013 года, если такая выборка актуальна для нашего замера.
Система обладает мощным арсеналом инструментов по формированию выборки публикаций по ключевым словам с помощью запросов. Безусловно, это операторы AND, OR и NOT.
- Оператор AND ищет оба слова находящиеся в поисковом запросе. Если в статье нет одного из них, статья не попадёт в выборку.
- Оператор OR ищет статьи, содержащие хотя бы одно из слов запроса
- NOT ищет статьи не содержащие слОва, стоящего после оператора
Это довольно известные логические операторы, часто использующиеся в поисковых системах.
Для конкретизации поиска также используются популярные маски:
- * (например, контент* — система будет искать все слова, начинающиеся с букв «контент»)
- ? (например, п?р — система будет искать все слова, состоящие из 3-х букв, но с любой второй буквой)
- _ (например, контент_ — система будет искать все слова из 8 букв, начинающиеся с «контент» и заканчивающиеся на любую букву
- % — (например, %рама — система будет искать все слова, оканчивающиеся на «рама»)
Также используются функции WITHIN, ADJ и NEAR. С тем как они работают, можете ознакомиться в документации к сервису. Все они предназначены для того, чтобы ваш поиск дал именно те материалы, которые окажутся актуальными для вашего замера. Задав запрос, выбрав дату и источники нажимаем кнопку искать. Результаты поиска можно выгрузить в текстовый редактор для дальнейшей обработки методами, например, контент-анализа.
В будущий отчёт актуально включить иллюстрации динамики публикаций на заданную тему. Система позволит отобразить их в виде графика:
Есть и другие актуальные функции иллюстрирования статистики массива текстов. Они показаны на рисунке ниже:
В комментариях функции не нуждаются. Суть работы этого блока функций сводится к визуализации статистики по массиву текстов. Вот, например, распределение публикаций по регионам:
Коль скоро это блог о контент-анализе, хотелось бы подчеркнуть значимость функции ДИНАМИКА ТОНАЛЬНОСТИ. В данном случае мы можем просмотреть динамику негативных, нейтральных и позитивных публикаций — распределение их долей в общем массиве за заданный период времени.
Как и обещал — обзор очень краткий. Цель была просто обрисовать в общем функционал инструмента сбора массива текстов, который может быть применён как в базовом мониторинге СМИ, так и при проведении последующего контент-анализа экспортированных публикаций. Как мы увидели, в сервисе присутствует и механизм проведения простого контент-анализа.
Спасибо! В следующей статье будет сервиса мониторинга СМИ ИНТЕГРУМ.