Поисковик абзацев текстов схожих с искомых. Кластеризация абзацев

Здравствуйте, уважаемые читатели блога о контент-анализе!

Закончил работу над новой программкой на JAVA — программка сугубо учебная (пару дней назад закончился третий месяц моего изучения JAVA и по сути — вообще программирования), полезностью, вероятно, особой не обладает, но если вы найдете ей применение — отлично. Программка позволяет ввести в поиск фрагмент текста и найти все похожие на него фрагменты. Также она позволяет кластеризовать по темам все абзацы загруженных текстов.

ff

Скачать ее можно ТУТ. Для запуска надо установить JAVA, если она еще не установлена и далее запустить файл FindFrags.jar — или двойным кликом или через командную строку командой: java -jar FindFrags.jar, находясь в нужном каталоге или задав путь до файла jar. Читать далее Поисковик абзацев текстов схожих с искомых. Кластеризация абзацев

«Закончил» работу над Dazdraperma v0.2 (веб-приложение для контент-анализа текста)

Здравствуйте, уважаемые читатели блога о контент-анализе!

Давно пора было это сделать, но сделал только сейчас — чуть-чуть доделав, прекратил развитие проекта Dazdraperma. На этом проекте хотел сделать браузерное приложение для ручного неавтоматизированного анализа текстов. Начал делать его на процедурном PHP, чтобы потом перейти на объектно-ориентировнный PHP фреймвок, на Yii. Но забил, так как увлекся JAVA, а само приложение буду делать десктопным, не браузерным и делать буду на JAVA. Не знаю, насколько это правильное решение, но пока что решил вот так.

Снимок

Читать далее «Закончил» работу над Dazdraperma v0.2 (веб-приложение для контент-анализа текста)

Сделал программку для конкорданса — конкорданс менеджер 1.0

Здравствуйте, уважаемые читатели блога о контент-анализе!

Сегодня хочу поделиться описанием бесплатной программы для извлечения контекстов употребления слов в массиве текстов. Программку дописал вчера. Для использования понадобится установить JAVA и MYSQL сервер (не стоит пугаться — это не сложно).

Суть конкорданса в получении фрагментов текстов, в которой употреблена актуальная лексика. Например, у вас есть огромный массив текстов, в каждом из которых озвучивается какая-то интересная вам тема. При этом текст не обязательно посвящен только этой теме. Для того, чтобы получить фрагменты текстов, в которых звучит нужная вам тема и отсеять неактуальные фрагменты текстов используются софт для конкорданса. В самом простом виде пользователь вводит в поиск слово, и программа показывает ему каждый из фрагментов, где это слово употребляется.

Снимок Читать далее Сделал программку для конкорданса — конкорданс менеджер 1.0

Окончил работу над веб-приложением для контент-анализа Даздраперма v01

Здравствуйте, уважаемые читатели блога о контент-анализе!

С апреля ничего не писал. Причина — делал простенькое веб-приложение для контент-анализа. Делал почти 2 месяца и 1 версия благополучно размещена на сервере. Называется DAZDRAPERMA v01.

Позволяет импортировать тексты (по одному или несколько сразу — таблицей), кодировать цитаты, экспортировать таблицы с результатами кодирования. Достаточно полно описал приложение блоге приложения — ЗДЕСЬ. Пока что регистрацию не делал — приложение сыроватое и не особо многофункциональное. Нужно тестировать, искать баги, добавлять функционал и пр. Сейчас оно сделано на голом PHP и MYSQL + 2 библиотеки для работы с EXCEL. В перспективе планирую переводить его на MVC фреймвок LARAVEL.

exh Читать далее Окончил работу над веб-приложением для контент-анализа Даздраперма v01

Отношение к контент-анализу. Анализ общественного мнения в соцмедиа

Здравствуйте, уважаемые читатели блога о контент-анализе!

Все чаще меня тревожит мысль — тематика контент-анализа не особо интересна приблизительно половине аудитории моего блога, а именно — студентам (а также аспирантам). Это довольно парадоксально звучит, но, предполагаю, что это именно так: эта часть аудитории блога (очень любимая мною, надо сказать 🙂 )заходит на мой блог, потому что им не нравится контент-анализ. Им хочется как можно быстрее с ним расквитаться  и потом желательно даже и не вспоминать о ужасах, ассоциирующихся у них со страшным зверем по имени контент-анализ. Тяжкие медленно тянущиеся часы и дни, впустую потраченные на задание преподавателя, на бессмысленное и примитивное мучение — кодирование и очень приземленный анализ закодированного массива контента. Вот какое-то такое мнение/впечатление о КА у половины аудитории блога 🙂 Это была моя гипотеза.

what-the-fuck-is-this

Как я уже писал ранее (несколько постов назад) — актуальной задачей сегодня мне видится обновление формата информации, преподносимой мною на блоге. Информация должна быть максимально полезна для решения наиболее популярных задач (в рамках тематики сайта) и одновременно с этом — она должна быть представлена так, чтобы ни в коем случае не отпугивать аудиторию, а напротив — быть конгруэнтной ее предпочтениям в формате материала. Читать далее Отношение к контент-анализу. Анализ общественного мнения в соцмедиа

Коррупция в российской полиции. Контент-анализ твитов на русском и английском языках

Здравствуйте, уважаемые читатели блога о контент-анализе!

Сегодня вспомнил, что не так давно проводил пилотный замер для начального погружения в тему и для тестирования DEDOOSE. Пилотный замер проведен, увы, дальше пилотного замера дело не пошло по причине прекращения общения с заинтересованным человеком. Но вот данные сохранились кой какие, и я решил их опубликовать очень кратко.

В очередной раз ступил и не сохранил исходные данные и файлы экспорта кодов, мемо, корпуса, цитат да и всего остального рабочего материала. Дело в том, что я хочу создать базу данных, в которой будут храниться все материалы исследований, которые я провел (ну или не только я). Формат БД пока не определил (как и формат многого другого задуманного для этого блога…). Потому что ленюсь, что абсолютно непростительно! Это не оправдание.

bribessss

Авось, какие-то материалы всё ж найду и выложу-таки. Но не хочется формировать просто облако на дропбоксе или аналогах. Хочется вокруг облака что-то еще… Читать далее Коррупция в российской полиции. Контент-анализ твитов на русском и английском языках