Сделал генератор поисковых запросов для твиттера

Здравствуйте, уважаемые читатели блога о контент-анализе!

Эта заметка — наверное, просто на память и для сохранности моей библиотеки и графической реализации ее использования на java swing. Библиотека позволяет из исходного поискового запроса для твиттера, где не учтена возможная морфология слов, получить массив таких же по логической структуре поисковых запросов, но уже с учетом возможной морфологии. Если словоформ сгенерировалось мало — можно добавить свою лексику. Если есть что-то лишнее — это лишнее можно убрать. Дело в том, что поисковик твиттера сам не будет искать все словоформы — найдет твиты со словами в тех формах, что заданы в вашем поисковом запросе. Словоформы придется указать вручную. Однако, всегда можно что-то забыть указать или нужно сделать ОЧЕНЬ много запросов, а времени или желания прописывать в них все словоформы просто нет.

ts Читать далее Сделал генератор поисковых запросов для твиттера

Базовая матрица контент-анализа в Micosoft SQL Server

Здравствуйте, уважаемые читатели блога о контент-анализе!

Сегодня будет пост о создании базовой матрицы контент-анализа в MICROSOFT SQL SERVER.

sqlserv

В MS SQL Server я совершенно не профи, но кое что могу показать. Этот пост сугубо для непрофессионалов в области SQL. В нём будет рассказано, как можно создать базовую матрицу контент-анализа, аналогичную создаваемой в программе ЛЕКТА (ЕЁ ПРИМЕР ВОТ ТУТ), используя MS SQL сервер. Матрица отражает присутствие каждого слова из группы слов в каждом из текстов. Есть в тексте слово — в ячейке 1, нет слова — 0. Далее, можно, например, факторизовать матрицу, дабы редуцировать количество переменных до меньшего количество факторов — по сути, просто выделить более общие темы, представленные группами слов из вашего словаря на основе корреляций переменных исходной матрицы контент-анализа. Читать далее Базовая матрица контент-анализа в Micosoft SQL Server