сбор текстов — Блог о контент-анализе

Совсем недавно разместил новый небольшой сервис для сбора публикаций из СМИ. Сбор идет приблизительно из 1000 источников и собирается все, что есть в RSS лентах источников (на текущий момент только из RSS). Полный текст пока не собирается — только описание из RSS (если оно есть), заголовок статьи, дата публикации, ссылка, автор, категория.

На отдельной странице можно посмотреть и источники и их rss ссылки.

Работает полнотекстовый поиск с возможностью использовать различные операторы типа OR, AND, NOT, расстояние между операндами, звездочку, минимальное редакционное расстояние и пр.

Найденные поиском тексты можно экспортировать в Excel. Также можно и по одному в txt.

Проект планирую развивать в сторону сбора полного текста публикаций, но писать правила парсинга не буду, потому что это будет нереально трудозатратно. Попробую автоматизировать. Также хочу поиграть с Entity Extraction (это извлечение сущностей из текста, типа ссылок, ФИО, других имен собственных, географии той или иной, email-ов и пр пр пр). Планировал посмотреть в сторону группировки текстов по темам также. В целом, делаю проект просто как полигон для разных экспериментов.

Писал на asp.net core worker service, asp.net core + angular.

Проект можно посмотреть и поиспользовать в том виде, в котором он сейчас существует вот тут: ссылка вот.

Если вдруг актуален сбор / парсинг каких-либо текстовых данных (извлечь из них что-либо) — обращайтесь по почте: aryumin ___собак___ aryumin.ru.

Метка: сбор текстов

Сбор публикаций из СМИ с поиском. Проект такой вот начал