Решил, что давно сюда не писал и надо это исправить — кратко рассказать, над чем сейчас работаю:
0. Во-первых проект с базой пользователей соцмедии и информацией по ним бросил (хоть он и работает сам по себе). Причин несколько — надоели ограничения на количество обращений к API соц сетей, а так же понял, что собранные тексты надо хранить (а не анализировать в памяти и избавляться от них, сохраняя только результаты анализа в БД). В общем у меня нет места для хранения всех постов. Сейчас в БД 2,5 миллиона пользователей, в среднем у каждого около 200 постов (кажись). 2,5 * 200 = очень много миллионов постов, которые надо хранить в индексе (и это только для 2.5 миллионов юзеров)… А без этого введение и применение новых метрик анализа будет идти слишком долго (надо заново собирать посты пользователей).
Теперь о новых проектах. Так вышло что начато сразу 3… И это ужасно, потому что времени хватает только на 1, да и то не хватает… Поэтому как-то все смешалось в кучу и остановились сразу все 3 (перегрелся). Итак, работаю над следующими проектами:
- Сервис мониторинга в первую очередь СМИ (может быть будут еще соцмедии типа форумов / блогов). Пока в базе 16 тысяч источников — делаю сервис автоматического определения правил парсинга. Авось получится хотя бы для четверти источников в БД. Сервис будет представлять собой централизованную БД правил парсинга источников (rest api на головном сервере). Клиентская часть состоит из индекса, куда будут сохраняться публикации, по ним можно будет производить поиск, экспорт, некоторый анализ. Приложение для формирования правил парсинга, экспорта, поиска и пр будет на WPF. К нему — WCF сервис, хостящийся на Windows службе — это сервис сбора и взаимодействия с индексом ElasticSearch для клиента и сборщика. Хочу по максимуму автоматизировать установку ElasticSearch, создания индекса, установку WCF сервиса в службе.
- Парсер шаблона текста, формирующий бинарное дерево синтаксического разбора шаблона (шаблон это типа поискового запроса — с булевыми операторами, оператором расстояния, кавычками, скобками и пр) и сопоставление этого шаблона строке. По сути, мне нужна библиотека для сопоставление большого количества шаблонов большому количеству строк. На выходе — матрица с бинарными значениями: столбцы — шаблоны, строки — строки текстов.
- На блоге о своем опыте изучения программирования описал свою небольшую библиотеку для предобработки текстов (токенизация, стемминг, очистка от урлов, почтовых адресов, пунктуации, стоп-слов, формирование n-грамм из токенов и пр). На выходе после обработки можно сформировать term-text матрицу. В общем она мне нужна была, чтобы сто раз не писать в каждом проекте инструменты для предобработки текстов перед их анализом и пр. Теперь хочу сделать к ней настольное приложение — можно будет загрузить тексты из txt, xlsx и пр, убрать лишние, если очень захочется, получить словарь слов, предобарботать средствами библиотеки, выгрузить term-text матрицу. Мне такое приложение нужно для того, чтобы экспериментировать с мышиным обучением, кое пробую в какой-то мере освоить (не хочу примеров из книг — хочу тексты мучить, потому что больше мне ничего не интересно, но вначале их надо представить в виде term-text матрицы).
Пока пробую себя заставить не заниматься сразу всем, а остановиться только на проекте из пункта 1.