Сбор публикаций из СМИ с поиском. Проект такой вот начал

Совсем недавно разместил новый небольшой сервис для сбора публикаций из СМИ. Сбор идет приблизительно из 1000 источников и собирается все, что есть в RSS лентах источников (на текущий момент только из RSS). Полный текст пока не собирается — только описание из RSS (если оно есть), заголовок статьи, дата публикации, ссылка, автор, категория.

На отдельной странице можно посмотреть и источники и их rss ссылки. 

Работает полнотекстовый поиск с возможностью использовать различные операторы типа OR, AND, NOT, расстояние между операндами, звездочку, минимальное редакционное расстояние и пр. 

Найденные поиском тексты можно экспортировать в Excel. Также можно и по одному в txt. 

Проект планирую развивать в сторону сбора полного текста публикаций, но писать правила парсинга не буду, потому что это будет нереально трудозатратно. Попробую автоматизировать. Также хочу поиграть с Entity Extraction (это извлечение сущностей из текста, типа ссылок, ФИО, других имен собственных, географии той или иной, email-ов и пр пр пр). Планировал посмотреть в сторону группировки текстов по темам также. В целом, делаю проект просто как полигон для разных экспериментов. 

Писал на asp.net core worker service, asp.net core + angular. 

Проект можно посмотреть и поиспользовать в том виде, в котором он сейчас существует вот тут: ссылка вот

Если вдруг актуален сбор / парсинг каких-либо текстовых данных (извлечь из них что-либо) — обращайтесь по почте: aryumin ___собак___ aryumin.ru. 

Программа для качественного контент-анализа Global QDA. часть 3. Кодирование

Здравствуйте, уважаемые читатели блога о контент-анализе!

Продолжаем разбираться с Global QDA. Сегодня поговорим о кодах и кодировании.

По сути, коды — это своеобразные маркеры, отражающие принадлежность единицы анализа к той или иной тематической категории или значению по той или иной шкале оценки. В QDA, применительно к текстам, единицей анализа обычно является цитата — фрагмент текста. При этом, заранее необходимо определить, какие границы будет иметь эта цитата (не в Global QDA, а в принципе надо это сделать). Например, это может быть целое предложение или абзац. Также границы могут определяться целостностью мысли, озвучиваемой автором текста. То есть мысль не должна разрываться искусственно дроблением на фрагменты, определенного объема или имеющие заданные границы.

Итак, коды — маркеры, которые должны привязываться к единице анализа. Коды могут иметь иерархическую структуру, где есть один корневой код (его может и не быть), а у него есть дочерние коды. В свою очередь у дочерних кодов могут быть свои дочерние коды. Древовидная структура кодов реализована не во всех программах для качественного анализа данных. В Global QDA реализована.

В Global QDA можно создавать коды как во время кодирования, так и до. То есть код может существовать, не будучи привязанным хотя бы к одной конкретной цитате. Перейдем во вкладку Codes и нажмем кнопку добавления кода (с плюсиком). Появится диалоговое окно добавления нового кода, где можно указать название, описание кода, цвет кода и родительский код:

Выделение_099

Добавим три такие кода + код «тональность» с тремя дочерними кодами (традиционно — «позитив», «негатив», «нейтрал»). Читать далее Программа для качественного контент-анализа Global QDA. часть 3. Кодирование

Поисковик абзацев текстов схожих с искомых. Кластеризация абзацев

Здравствуйте, уважаемые читатели блога о контент-анализе!

Закончил работу над новой программкой на JAVA — программка сугубо учебная (пару дней назад закончился третий месяц моего изучения JAVA и по сути — вообще программирования), полезностью, вероятно, особой не обладает, но если вы найдете ей применение — отлично. Программка позволяет ввести в поиск фрагмент текста и найти все похожие на него фрагменты. Также она позволяет кластеризовать по темам все абзацы загруженных текстов.

ff

Скачать ее можно ТУТ. Для запуска надо установить JAVA, если она еще не установлена и далее запустить файл FindFrags.jar — или двойным кликом или через командную строку командой: java -jar FindFrags.jar, находясь в нужном каталоге или задав путь до файла jar. Читать далее Поисковик абзацев текстов схожих с искомых. Кластеризация абзацев