Сбор публикаций из СМИ с поиском. Проект такой вот начал

Совсем недавно разместил новый небольшой сервис для сбора публикаций из СМИ. Сбор идет приблизительно из 1000 источников и собирается все, что есть в RSS лентах источников (на текущий момент только из RSS). Полный текст пока не собирается — только описание из RSS (если оно есть), заголовок статьи, дата публикации, ссылка, автор, категория.

На отдельной странице можно посмотреть и источники и их rss ссылки. 

Работает полнотекстовый поиск с возможностью использовать различные операторы типа OR, AND, NOT, расстояние между операндами, звездочку, минимальное редакционное расстояние и пр. 

Найденные поиском тексты можно экспортировать в Excel. Также можно и по одному в txt. 

Проект планирую развивать в сторону сбора полного текста публикаций, но писать правила парсинга не буду, потому что это будет нереально трудозатратно. Попробую автоматизировать. Также хочу поиграть с Entity Extraction (это извлечение сущностей из текста, типа ссылок, ФИО, других имен собственных, географии той или иной, email-ов и пр пр пр). Планировал посмотреть в сторону группировки текстов по темам также. В целом, делаю проект просто как полигон для разных экспериментов. 

Писал на asp.net core worker service, asp.net core + angular. 

Проект можно посмотреть и поиспользовать в том виде, в котором он сейчас существует вот тут: ссылка вот

Если вдруг актуален сбор / парсинг каких-либо текстовых данных (извлечь из них что-либо) — обращайтесь по почте: aryumin ___собак___ aryumin.ru. 

Print Friendly, PDF & Email

Автор

Алексей Рюмин

Здравствуйте, уважаемый гость блога! Меня зовут Алексей Рюмин. На этом блоге мне хочется поделиться с Вами материалами о контент-анализе. Надеюсь, они окажутся полезными и интересными Вам. Приятного прочтения блога!