Где взять тексты для контент-анализа? Yandex, Google, Teleport VLX

Доброго времени суток!

Сегодня небольшая публикация — небольшая, но довольно актуальная. Не знаю почему так происходит, но когда встаёт речь о сборе текстов для проведения контент-анализа, возникает некоторый ступор: где их взять. Вопрос предельно простой, но почему-то ответ знают не все. Самое элементарное решение при отсутствии доступа до таких служб, как например, EAST VIEW (платная база публикаций в СМИ с возможностью скачивать по 20 статей, соответствующих запросу в поиске, за раз со страницы в архив и набивать папку кучей архивов) — это Google и Яндекс. Но, здесь имеет смысл задуматься перед началом поиска, а нормально ли будет скачивать все статьи, заявленные в результатах поисковой выдачи, находящиеся на самых разных по форме площадках? Я бы не рекомендовал так поступать — уже есть отрицательный опыт такого мартышкиного труда.

Искать лучше следующим образом. Предположим, вы решили собрать массив публикаций по нужной тематике с блогов. Отлично — выбираете в поисковике тип поиска БЛОГИ и получаете тексты постов с блогов. Скачиваете их по отдельности в нужном формате. Яндекс, к слову, прекрасно индексирует Google блоги на сервисе Blogspot, вопреки утверждениям многих, пишущих о выборе площадки для собственного блога и критикующих google за это — соответственно рекомендуют они ЖЖ. Кстати, и ЖЖ индексируется как яндексом так и гуглом.

Нужны публикации в новостных СМИ — ищете в разделе НОВОСТИ. Аналогично «обсуждения» — форумы, обсуждениях на блогах, сервисах типа mail.ru и google ответах (или вопросах — не помню как точно они называются) и т.д. Результаты похожи на Яндексе и Google, в этой связи, в случае набора большого массива текстов лучше ограничиться только одним поисковиком, чтобы потом не бороться с дублями статей.

Если вам нужно скачать большой форум (скажем, 1000 страниц форума или 10 000 страниц, или 100 000 страниц), то вручную тут уже что-либо сделать будет проблематично. Не беда — есть некоторый софт, который вы можете использовать в целях загрузки страниц сайта. Например, это TELEPORT VLX. Например, у нас есть форум на блоге content-analysis.ru/forum Чтобы скачать только форум, а не весь сайт, при создании нового проекта скачивания массива надо указать слэш в конце адреса:

content-analysis.ru/forum/

Вот как создаётся новый проект в TelePort Pro (специально скачал триальную версию). Кликаем на значок с молнией в верхней панели программы:

Выбираем первый вариант загрузки контента — полностью скачать сайт со всеми ссылками и т.д.

Теперь выбираем саму ссылку content-analysis.ru/forum/ и глубину загрузки — то есть на сколько ссылок от главной страницы может отдалиться teleport при закачке страниц сайта.Выберем 100. Чем больше число, тем дольше будет обрабатываться сайт. Если сайт очень большой — 100 — это вполне нормально.

Теперь выберем, что программе скачивать — пусть качает только текст.

Нажимаем ГОТОВО, выбираем директорию для загрузки файлов, и проект загрузки форума сайта, или иного раздела, вами указанного, запустится автоматически.

Чтобы открыть папку со скачанными html файлами нажмите на значок папки в верхней панели программы.

Когда скачаете массив страниц, у вас будет целая куча файлов html. Работать с ними непросто — лучше конвертировать их в txt и объединить в большие файлы. Для конвертации в txt можете использовать, например, HTMLAsText.

Программа довольно простая.Задаёте путь к файлам html, к будущим файлам txt, используете звёздочку, чтобы конвертировать все файлы в директории.

С помощью программы ADVANCED FILE JOINER можно соединить множество маленьких txt файлов в большие.

Учитывая то, что у программ бывают ограничение на число обрабатываемых объектов или на их объём, лучше не объединять все файлы воедино. Чтобы объединить файлы вначале пронумеруем их. Функцией группового переименование обладает, например, Total Commander.Выбираем несколько файлов, используя SHIFT или CTRL и нажимаем на иконку «групповое переименование».

Система предлагает задать маску для будущих файлов. Стираем то, что было в поле. Выбираем счётчик и расширение. Всё (Жмём «Выполнить»).

Когда вы получили набор крупных файлов с конвертированными текстами, имеет смысл их доработать так, чтобы избавиться от последствий конвертации (некоторые html теги могут сохраняться), убрать рекламу, какие-то другие блоки, содержащиеся на страницах. Лично я в этих целях предпочитаю пользоваться функцией Word найти — заменяю ненужные элементы на «ничто» (как отдельные теги, так и, указывая диапазон, части текста) и макросами, записанными на рекордере либо с чьей-то помощью вручную.Ну, а дальше проводим наш контент-анализ 🙂

Собственно это всё! Получилось больше, чем от себя ожидал. Следующая или несколько следующих публикаций будет о средствах мониторинга СМИ, но только при условии, что сервисы мне не откажут в демо версиях ибо рерайтом чужого заниматься желания нет и не появится.

Удачи!

Где взять тексты для контент-анализа? Yandex, Google, Teleport VLX

Автор

Алексей Рюмин