Сделал генератор поисковых запросов для твиттера

Здравствуйте, уважаемые читатели блога о контент-анализе!

Эта заметка — наверное, просто на память и для сохранности моей библиотеки и графической реализации ее использования на java swing. Библиотека позволяет из исходного поискового запроса для твиттера, где не учтена возможная морфология слов, получить массив таких же по логической структуре поисковых запросов, но уже с учетом возможной морфологии. Если словоформ сгенерировалось мало — можно добавить свою лексику. Если есть что-то лишнее — это лишнее можно убрать. Дело в том, что поисковик твиттера сам не будет искать все словоформы — найдет твиты со словами в тех формах, что заданы в вашем поисковом запросе. Словоформы придется указать вручную. Однако, всегда можно что-то забыть указать или нужно сделать ОЧЕНЬ много запросов, а времени или желания прописывать в них все словоформы просто нет.

ts

Вообще, эта библиотека предназначалась для сбора твитов после генерации запросов, для систематического сбора твитов и пр. Но пока что я сделал только генерацию запросов и продолжать работу над библиотекой сейчас не планирую.

Вот пример использования:

После запуска jar файла приложения оказываемся на странице подключения, где надо ввести адрес сервера с базой данных, пользователя, пароль и таблицу со словарем словоформ. (Если хотите протестировать приложение — напишите, пришлю пароль пользователя от БД на моем VPS, или же можете скачать словарь из предыдущей или предпредыдущей публикации на блоге — но там надо добавить индекс к столбцу word_id словаря — без него поиск будет идти не 1 секунду, а полторы-три-пять-семь и пр. минут).

СнимокВводим поисковый запрос (где мы не указываем словоформы).  (Можно использовать оператор «OR» — ИЛИ, пробел — И, и «-» — вычитание, скобки. Кавычки нельзя, увы).

twlib

Нажимаем «получить словоформы». Система найдет словоформы для каждого операнда. Теперь их можно отредактировать. Нажмем «отредактировать массивы словоформ». Здесь можно убрать галочки с ненужных словоформ и добавить (ввести) другие словоформы, если чего-то не хватает. Дубли не добавятся. Потом надо просто закрыть окно. Если снова нажать «отредактировать массивы словоформ» — массивы обновятся — что-то пропадет, что-то появится.

twlib

Переходим на закладку сгенерировать запрос и получаем единый запрос. Но он, вероятно, не будет работать в твиттере, так как является слишком длинным (>410 символов).

twlib

Переходим на закладку «оптимизированные запросы». Там можно получить уже «рабочие» нужной длины запросы (<410 символов). Жмем «сгенерировать запросы»:

twlib

Копируем и используем для поиска.

Линк на скачивание графического интерфейса с импортированной билиотекой: ВОТ

Линк на исходники  и скомпилированные файлы библиотеки и gui: ТУТ

Вот такая библиотека. Моя первая 🙂 Для использования нужна установленная JAVA. В программе используется подключение к БД MYSQL.

P.S. Хотел было описать классы и методы библиотеки, но не думаю, что оно того стоит. Если вдруг интересно — в исходниках есть все комментарии ко всем методам.

Начинаю очередную попытку не отвлекаться на собственные программки, а уже планомерно и постоянно изучать java просто по примерам из книг/видеокурсов и пр. Авось теперь получится, хотя надежды мало…

Бай 🙂

Print Friendly, PDF & Email

Автор

Алексей Рюмин

Здравствуйте, уважаемый гость блога! Меня зовут Алексей Рюмин. На этом блоге мне хочется поделиться с Вами материалами о контент-анализе. Надеюсь, они окажутся полезными и интересными Вам. Приятного прочтения блога!