Просто в качестве небольшого анонса: около месяца назад начал делать проект по сбору информации по пользователям социальных сетей. Суть проекта в следующем: в базу данных идет сбор данных из профиля об активных пользователях соц сетей (пока это только вконтакте). Также для каждого пользователя идет анализ публикаций на его стене по неограниченному количеству метрик. Речь идет о подсчете постов, соответствующих той или иной теме, упоминанию тех или иных персон, организаций, явлений, процессов и пр. Соответственно, появляется возможность сделать выборку пользователей по 1. характеристикам профиля и 2. характеристикам их стен (есть ли посты актуальную тему, сколько их и пр).
Запускал сервис локалько в качестве теста — за неполный день благополучно в БД записалась информация из профилей по 521 тысяче юзеров вк.
В планах идентификация ботов, реализация поиска постов по полноценным поисковым запросам (по умолчанию это регулярные выражения), классификаторы на машинном обучении, другие соц сети и много другого. Планирую к сентябрю закончить делать первую версию проекта. Проект делаю на c#, .net 4.5, .net core, elasticsearch, mongo, сервера как на windows так и на linux. Буду ли сам писать классификаторы или это будет что-то вроде Accord.Net — пока не решил. В приоритете первое.
Варианты применения: получение выборок для соц опросов, для продаж тех или иных товаров или услуг целевым аудиториям «по интересам» и по демографическим признакам.
Если у вас есть какие-либо предложения по проекту — буду рад их прочитать — пишите в комментариях!