Сбор публикаций из СМИ с поиском. Проект такой вот начал

Совсем недавно разместил новый небольшой сервис для сбора публикаций из СМИ. Сбор идет приблизительно из 1000 источников и собирается все, что есть в RSS лентах источников (на текущий момент только из RSS). Полный текст пока не собирается — только описание из RSS (если оно есть), заголовок статьи, дата публикации, ссылка, автор, категория.

На отдельной странице можно посмотреть и источники и их rss ссылки. 

Работает полнотекстовый поиск с возможностью использовать различные операторы типа OR, AND, NOT, расстояние между операндами, звездочку, минимальное редакционное расстояние и пр. 

Найденные поиском тексты можно экспортировать в Excel. Также можно и по одному в txt. 

Проект планирую развивать в сторону сбора полного текста публикаций, но писать правила парсинга не буду, потому что это будет нереально трудозатратно. Попробую автоматизировать. Также хочу поиграть с Entity Extraction (это извлечение сущностей из текста, типа ссылок, ФИО, других имен собственных, географии той или иной, email-ов и пр пр пр). Планировал посмотреть в сторону группировки текстов по темам также. В целом, делаю проект просто как полигон для разных экспериментов. 

Писал на asp.net core worker service, asp.net core + angular. 

Проект можно посмотреть и поиспользовать в том виде, в котором он сейчас существует вот тут: ссылка вот

Если вдруг актуален сбор / парсинг каких-либо текстовых данных (извлечь из них что-либо) — обращайтесь по почте: aryumin ___собак___ aryumin.ru. 

Качественный контент-анализ на IPAD в программе ATLAS.ti

Здравствуйте, уважаемые читатели блога о контент-анализе!

Сегодня решил снова описать ещё одну бесплатную программку для проведения контент-анализа. На сей раз мы поговорим о версии ранее описанной на блоге программы для проведения качественного контент-анализа ATLAS.ti для IPAD. Собственно, другого софта для проведения контент-анализа на планшете я не знаю. Не то чтобы программка была отличной и решала все возможные насущные вопросы проведения замеров, но она как минимум ИНТЕРЕСНА! И даже может быть очень полезной в некоторых ситуациях… Главным образом, она хороша для первичного кодирования аудио и видео файлов — например, свежевзятых на айпад интервью в аудио или видео формате. То есть взяли интервью и скорее кодировать материалы, даже без перевода в текст. Дальше эти материалы можете экспортировать в дропбокс или просто в файл и после импортировать в десктопную версию ATLAS.ti для более основательной работы. Собственно, вещь хорошая.

Читать далее Качественный контент-анализ на IPAD в программе ATLAS.ti

Инструменты мониторинга СМИ на PUBLIC.RU.

Здравствуйте, уважаемые читатели блога о контент-анализе!

Сегодня мы поговорим на тему, которую ранее затрагивали, но не останавливались на ней подробно. Это тема мониторинга СМИ и средств реализации мониторинга. Учитывая то, что сервисов, предоставляющих возможность автоматизированного проведения мониторинга СМИ немало, на блоге я остановлюсь только на 2-х из них. Пожалуй, этого будет достаточно, и в силу того, что сервисы имеют схожий функционал. При этом для реализации контент-анализа одна из ключевых задач — сбор массива текста. Данные сервисы помогают нам собрать массив, достаточно гибко варьируя выборку в случае необходимости. В этой связи подробного обзора сервисов здесь не будет представлено — с детальным описанием их работы можно ознакомиться в справке, находящейся на сайтах сервисов мониторинга. В этой статье мы поговорим о сервисе PUBLIC.RU

Читать далее Инструменты мониторинга СМИ на PUBLIC.RU.

Где взять тексты для контент-анализа? Yandex, Google, Teleport VLX

Доброго времени суток!

Сегодня небольшая публикация — небольшая, но довольно актуальная. Не знаю почему так происходит, но когда встаёт речь о сборе текстов для проведения контент-анализа, возникает некоторый ступор: где их взять. Вопрос предельно простой, но почему-то ответ знают не все. Самое элементарное решение при отсутствии доступа до таких служб, как например, EAST VIEW (платная база публикаций в СМИ с возможностью скачивать по 20 статей, соответствующих запросу в поиске, за раз со страницы в архив и набивать папку кучей архивов) — это Google и Яндекс. Но, здесь имеет смысл задуматься перед началом поиска, а нормально ли будет скачивать все статьи, заявленные в результатах поисковой выдачи, находящиеся на самых разных по форме площадках? Я бы не рекомендовал так поступать — уже есть отрицательный опыт такого мартышкиного труда.

Читать далее Где взять тексты для контент-анализа? Yandex, Google, Teleport VLX

Блог о полевом этапе социологических и маркетинговых исследований

Здравствуйте, уважаемые читатели блога о контент-анализе! Хочу сообщить вам, что с этого момента все публикации, связанные с полевым этапом социологических и маркетинговых замеров, будут публиковаться на отдельном БЛОГЕ О ПОЛЕВОМ ЭТАПЕ СОЦИОЛОГИЧЕСКИХ И МАРКЕТИНГОВЫХ ИССЛЕДОВАНИЙ (название пока ещё точно не сформулировано). Блог будет располагаться по адресу soc-pole.ru . На момент публикации этой записи в блог о контент-анализе блог ещё не создан — не удивляйтесь ошибке при попытке перехода по адресу будущего блога 🙂

полевой этап исследования

На блоге будут публиковаться материалы о том, как мы можем получить данные как текстового, так и цифрового формата для социологических и маркетинговых замеров. Писать будем о глубинных интервью, онлайн и оффлайн фокус группах, загрузке форумов и сайтов для проведения контент-анализа, поле в анкетных опросах и много о чём ещё. Добро пожаловать на новый ресурс о поле))) Этот блог о контент-анализе, разумеется, продолжаю развивать 🙂

Лекта. Качественно-количественный контент-анализ. Часть первая

Здравствуйте, уважаемые читатели блога о контент-анализе. Вашему вниманию предлагаю вторую статью о программе ЛЕКТА, производящей качественно-количественный контент-анализ текстовых документов: публикаций в СМИ, глубинных интервью, фокус-групп, форумов, блогов, нормативно-правовых актов и многого другого.

Читать далее Лекта. Качественно-количественный контент-анализ. Часть первая