экспресс контент-анализ текста на advego.ru

Здравствуйте, уважаемые читатели бога практических знаний о контент-анализе!

Сегодня хочу написать микроскопический обзор программы, с помощью которой можно в режиме онлайн быстро и просто произвести экспресс контент-анализ текста.

Специализированный сервис, позволяющий провести процедуру анализа текста располагается на бирже контента для сайтов Адвего по этому адресу. Функционал её не очень широк, но достаточно забавен. Таких интересных параметров я пока не встречал.

Итак, начнём сначала. Вот так выглядит сервис:

Как мы видим – ничего замысловатого. Выбираем любой текст, копируем его и вставляем. Задаём язык текста и далее нажимаем кнопку ПРОВЕРИТЬ.

Самое интересное в результатах экспресс анализа находится в первой таблице. Помимо всего прочего программа позволяет определить долю «воды» в тексте. Вычисляется этот параметр так:

ВОДА = 100% — (значимые слова/общее число слов)*100%

Под стоп словами – один из параметров оценки текста – подразумеваются союзы, частицы, предлоги и многое другое, не имеющие определённой семантики.

Программа показывает число слов, написанных, с орфографическими ошибками. Конечно же, значения этого параметра часто завышены, так как анализатор просто не может знать всех слов языка анализируемого текста. Незнакомое ему автоматически классифицируется в качестве ошибки.

Ещё один интересный параметр первой таблицы – КЛАССИЧЕСКАЯ ТОШНОТА ДОКУМЕНТА. Информация из вики от Адвего: «Классическая тошнота — это коэффициент, показывающий заспамленность текста самым повторяющимся словом. Определяется как квадратный корень из количества повторений самого тошнотного слова. Самое тошнотное слово может снижать релевантность по остальным словам. Оптимальное значение классической тошноты равно 7. Большая тошнота может помешать продвижению сайта».

Другой забавный параметр, схожий с предыдущим — АКАДЕМИЧЕСКАЯ ТОШНОТА ДОКУМЕНТА. Тоже из вики: «Академическая тошнота характеризует натуральность документа. Если в документе много различных повторяющихся слов, то показатель академической тошноты будет большим».

Далее в следующей таблице «Семантическое ядро» мы можем увидеть наиболее значимые для текста слова. «Количество наиболее часто встречающихся в тексте слов и словосочетаний и их частота, то есть процентное соотношение слова или словосочетания к количеству символов в тексте. Этот раздел результатов семантического анализа необходим оптимизаторам и позволяет оценить плотность ключей, наличие или отсутствие переспама».

Далее можно увидеть частотное распределение слов, встречающихся в тексте. Мне показалось странным, что вычисляется оно как отношение количества слов к общему количеству символов (а не слов) в тексте.

Ну и далее находится таблица с информацией о содержании стоп слов. Странно, что на вики этот параметр характеризуется как основной для определения «водности» текста… Этого, к сожалению, не понял.

Ниже можно посмотреть, в каких словах документа возможно находится орфографическая ошибка.

Интересный и простой сервис экспресс-анализа текста. Собственно, вот и всё на сегодня.

Спасибо за внимание!

Автор

Алексей Рюмин

Здравствуйте, уважаемый гость блога! Меня зовут Алексей Рюмин. На этом блоге мне хочется поделиться с Вами материалами о контент-анализе. Надеюсь, они окажутся полезными и интересными Вам. Приятного прочтения блога! Посмотреть все записи автора Алексей Рюмин

экспресс контент-анализ текста на advego.ru: 6 комментариев

Добрый день,

искал информацию по контент анализу и очень удивился прочитав, что я попал на страницу бога практических знаний. Понимаю, что это ошибка.

Очень рад за Вас, что Вы с лёгкостью по одной странице определяете степень прикладной полезности всего сайта. Удачи в дальнейших поисках информации по контент-анализу.

В этом экспресс-анализе в результатах регулярно выскакивает «тьма». Поскольку я анализировала академические социологические тексты, я очень удивилась этому слову, и пыталась найти в помощью автоматического поиска в Word. Но а текстах никакой «тьмы» не было и в помине! Словечко «иза» тоже вызывает недоумение. Ошибку в вычислении частотности я не вижу. По-моему, тут все правильно. % от общего числа слов, а не символов.

Алексей Рюмин:

10.06.2014 в 21:49

Действительно странно… Ну, тогда стоит попробовать или wordstat для подсчета частот, или можно лемматизатор, что намного лучше (хотя, как мне показалось, он теряет часть слов (частота меньше реальной)). Лемматизатор тут описан — http://content-analysis.ru/index.php/soft/prostoj-i-udobnyj-instrument-onlajn-lemmatizacii/

ето все интересно, на сколько я знаю уже есть программи которые делают статистику текста

Добрый день!

Данный анализ на Адвего полезен при SEO-оптимизации текстов, чтобы поисковик выходил на нужные страницы сайтов. Это не классический контент-анализ. Он позволяет автору текста работать над семантическим ядром и настройкой частотности употребления слов. И он НЕ для того, чтобы просто подводить статистику по каким-то словам и выявлять какие-то смысловые единицы в чьем-то тексте. Хотя, конечно, его можно так использовать, но он скорее вызовет недоумение.

Обсуждение закрыто.