Сделал генератор поисковых запросов для твиттера

Здравствуйте, уважаемые читатели блога о контент-анализе!

Эта заметка — наверное, просто на память и для сохранности моей библиотеки и графической реализации ее использования на java swing. Библиотека позволяет из исходного поискового запроса для твиттера, где не учтена возможная морфология слов, получить массив таких же по логической структуре поисковых запросов, но уже с учетом возможной морфологии. Если словоформ сгенерировалось мало — можно добавить свою лексику. Если есть что-то лишнее — это лишнее можно убрать. Дело в том, что поисковик твиттера сам не будет искать все словоформы — найдет твиты со словами в тех формах, что заданы в вашем поисковом запросе. Словоформы придется указать вручную. Однако, всегда можно что-то забыть указать или нужно сделать ОЧЕНЬ много запросов, а времени или желания прописывать в них все словоформы просто нет.

ts Читать далее Сделал генератор поисковых запросов для твиттера

Поисковик абзацев текстов схожих с искомых. Кластеризация абзацев

Здравствуйте, уважаемые читатели блога о контент-анализе!

Закончил работу над новой программкой на JAVA — программка сугубо учебная (пару дней назад закончился третий месяц моего изучения JAVA и по сути — вообще программирования), полезностью, вероятно, особой не обладает, но если вы найдете ей применение — отлично. Программка позволяет ввести в поиск фрагмент текста и найти все похожие на него фрагменты. Также она позволяет кластеризовать по темам все абзацы загруженных текстов.

ff

Скачать ее можно ТУТ. Для запуска надо установить JAVA, если она еще не установлена и далее запустить файл FindFrags.jar — или двойным кликом или через командную строку командой: java -jar FindFrags.jar, находясь в нужном каталоге или задав путь до файла jar. Читать далее Поисковик абзацев текстов схожих с искомых. Кластеризация абзацев

Базовая матрица контент-анализа в Micosoft SQL Server

Здравствуйте, уважаемые читатели блога о контент-анализе!

Сегодня будет пост о создании базовой матрицы контент-анализа в MICROSOFT SQL SERVER.

sqlserv

В MS SQL Server я совершенно не профи, но кое что могу показать. Этот пост сугубо для непрофессионалов в области SQL. В нём будет рассказано, как можно создать базовую матрицу контент-анализа, аналогичную создаваемой в программе ЛЕКТА (ЕЁ ПРИМЕР ВОТ ТУТ), используя MS SQL сервер. Матрица отражает присутствие каждого слова из группы слов в каждом из текстов. Есть в тексте слово — в ячейке 1, нет слова — 0. Далее, можно, например, факторизовать матрицу, дабы редуцировать количество переменных до меньшего количество факторов — по сути, просто выделить более общие темы, представленные группами слов из вашего словаря на основе корреляций переменных исходной матрицы контент-анализа. Читать далее Базовая матрица контент-анализа в Micosoft SQL Server

Обзор и обработка данных контент-анализа в ATLAS.ti. Часть четырнадцатая

Доброго времени суток, уважаемые читатели блога о контент-анализе! Пришло время перебраться к кой чему совсем непростому в ATLAS.ti — во всяком случае, этот момент работы в программе вызывает у многих именно такую реакцию. Но не надо пугаться — обработка данных в ATLAS.ti не так уж и сложна. В общем внимательно читаем, то что написано ниже, и всё будет ОК 🙂

Читать далее Обзор и обработка данных контент-анализа в ATLAS.ti. Часть четырнадцатая

Контент-анализ в ЛЕКТА. Интерпретация матриц факторного анализа и написание отчёта. Часть шестая

Здравствуйте, уважаемые читатели блога о контент-анализе! Это завершающая статья цикла о контент-анализе в программе ЛЕКТА. Сейчас я расскажу вам, как работать с матрицами факторного анализа, получаемыми в ходе контент-анализа. Напомню ещё раз, что я описываю предыдущую версию программы, функционал которой несколько менее полон — в ней нет модуля факторного анализа, что немного осложняет работу. В новой версии факторизация происходит намного быстрее и удобнее.

Читать далее Контент-анализ в ЛЕКТА. Интерпретация матриц факторного анализа и написание отчёта. Часть шестая

Контент-анализ в ЛЕКТА. Обработка матриц факторного анализа в Ecxel. Часть пятая.

Здравствуйте, уважаемые читатели блога о контент-анализе! Сегодня пост будет небольшим. Мы поговорим об итоговой обработке полученных матриц факторного анализа. На этом этапе мы определим содержание факторов — тематических групп, выраженных набором переменных (лексем) и наборами фрагментов текстов.

Читать далее Контент-анализ в ЛЕКТА. Обработка матриц факторного анализа в Ecxel. Часть пятая.