Инструмент TF-IDF: вдохновение по ключевым словам для семантического SEO

  1. TL; DR
  2. WTF, TF-IDF?
  3. Срок Частота
  4. Частота обратных документов
  5. Колибри, RankBrain, TF-IDF и семантический поиск
  6. Как TF-IDF работает в WebSite Auditor

Автор: Олег Барысевич , соучредитель и директор по маркетингу SEO PowerSuite

18 апреля 2017 г.

TL; DR

TF-IDF (сокращение от «частота-обратная частота документа») уже давно используется Google для определения релевантности страниц в индексе для данного запроса. Затем был Колибри, а затем Ранкрейн. Инструмент TF-IDF, выпущенный сегодня в WebSite Auditor Это попытка объединить эти три понятия, чтобы дать вам рекомендации по оптимизации на основе данных в эпоху семантического поиска. Этот новый инструмент использует алгоритм TF-IDF, чтобы помочь вам оптимизировать ваши страницы для актуальности, чтобы они занимали более высокое место в результатах поиска.

Инструмент TF-IDF полностью доступен в бесплатной версии WebSite Auditor; чтобы начать использовать его, просто загрузите WebSite Auditor (или перезапустите приложение, если оно уже установлено - оно автоматически обновится при запуске) и перейдите прямо к Content Analysis> TF-IDF .

Вы также можете прочитать краткое описание TF-IDF и его место в алгоритме Google, то, как инструмент TF-IDF работает в WebSite Auditor, и как вы можете использовать его для оптимизации своих страниц.

WTF, TF-IDF?

С самого первого дня поисковые системы пытаются обрабатывать и интерпретировать контент, как это делают люди. Оглядываясь назад, люди (точнее, оптимизаторы, определенное подмножество людей) пытались сделать обратное - выяснить, как поисковые системы интерпретируют текст, чтобы взломать секретный код ранжирования в верхней части результатов поиска. Вот как SEO разработали такие метрики, как плотность ключевых слов - простой, легко вычисляемый показатель, который можно использовать при оптимизации на странице.

Но Google никогда не использовал плотность ключевых слов из-за того, что он шумный и им легко манипулировать. Вместо этого Google давно пользуюсь TF-IDF в индексации и поиске информации; несколько из Google патенты Также подразумевается, что TF-IDF используется в рейтинге. Основная цель TF-IDF - выяснить важность данного ключевого слова для данной страницы .

Математически TF-IDF является продуктом того, как часто ключевое слово появляется на странице (TF) и как часто оно должно появляться на средней веб-странице, основываясь на большем наборе документов (IDF).

Поскольку TF-IDF сравнивает использование ключевого слова отдельной страницы с использованием большого количества документов, это довольно четкая оценка важности этого термина для страницы. Это уменьшает значимость неважных слов и фраз (подумайте о функциональных словах и вводных терминах) - потому что весь набор документов тоже их использует. Более редкие, значимые термины, напротив, имеют большее значение.

Срок Частота

Возможно, вы захотите думать о частоте терминов как о нормализованной версии плотности ключевых слов. Вот одна из формул, обычно используемых для ее вычисления:

Не позволяйте логарифмам оттолкнуть вас - благодаря журналам в TF меньше шума, чем в плотности ключевых слов. Скажем, если у вас есть страница длиной в 1000 слов, на которой ваше целевое ключевое слово появляется 10 раз, то плотность ключевых слов этого термина будет составлять 1%; его частота будет 4,32 / 9,97 = 0,43 (если вы используете базу 2 журналов).

Если вы отредактируете страницу так, чтобы ключевое слово показывалось в 2 раза больше (в 20 раз), тогда его исходная плотность будет в 2 раза больше - 2%. Но TF не поднимется так сильно; это будет 5,32 / 9,97 = 0,53 (опять же, с использованием базы 2).

Частота обратных документов

IDF измеряет отношение общего количества документов в корпусе к количеству документов, содержащих данное ключевое слово.

Как видите, если ключевое слово является общим словом, которое упоминается во многих документах, значение IDF будет крошечным; когда мы умножим TF на него, чтобы получить TF-IDF, он не сильно увеличится. Если, наоборот, термин встречается только в нескольких документах, его IDF будет существенным (и, следовательно, TF-IDF приведет к увеличению цифры).

Колибри, RankBrain, TF-IDF и семантический поиск

Hummingbird - это название алгоритма ранжирования, который Google начал использовать в 2013 году. Hummingbird использует контекст и намерение поисковика (в отличие от отдельных ключевых слов в запросе) для получения наилучших результатов. В соответствии с Википедия Hummingbird «способен понимать понятия и отношения между ключевыми словами» , и его цель «состоит в том, чтобы страницы, соответствующие значению, работали лучше, чем страницы, соответствующие всего нескольким словам» .

RankBrain (запущенный в октябре 2015 года) является частью алгоритма Google Hummingbird. Его цель аналогична цели Колибри, но мы понимаем, что механизм, который он использует, отличается. Google недавно сказал что RankBrain «участвует в каждом запросе» и влияет на фактическое ранжирование «вероятно, не в каждом запросе, а во многих запросах» .

В RankBrain есть две части: часть анализа запросов и часть ранжирования . В первом случае RankBrain пытается интерпретировать запросы (особенно редкие или совершенно новые запросы с длинным хвостом), связывая их с другими более распространенными запросами и концепциями, чтобы обеспечить лучшие результаты поиска в ответ. Что касается ранжирования, он анализирует страницы в своем индексе и ищет конкретные функции, которые делают их релевантными для запроса (я сейчас выясню, каковы эти функции). Эти страницы не обязательно будут содержать точные слова из запроса, но, тем не менее, актуальны.

Таким образом, как Hummingbird, так и RankBrain, кажется, сосредоточены на определенных не зависящих от ключевых слов особенностях веб-страниц, чтобы выяснить, является ли страница хорошим результатом поиска по запросу. Такие «функции» определяются путем анализа наиболее эффективных результатов поиска в соответствии с показателями удовлетворенности пользователей Google. Эти показатели могут включать рейтинг кликов в поисковой выдаче, количество подписчиков, время на странице и т. Д.

Столь эффективно, RankBrain может анализировать группу результатов поиска, которые имеют высокий рейтинг для похожих поисков и имеют хорошие сигналы удовлетворенности пользователей, и искать функции, которые разделяют эти страницы - другими словами, функции, которые делают их хорошими результатами поиска. Эти функции могут затем использоваться в качестве специфичных для ниши сигналов ранжирования для связанных запросов. Поскольку большая часть онлайн-контента является текстовой, такими функциями часто являются наличие определенных терминов и фраз на странице.

Позвольте привести пример. Если вы ищете «всеобъемлющее руководство по SEO» в Google, даже половина результатов, которые вы получите, не будет содержать этих точных слов. У RankBrain может быть лучший способ узнать, каковы лучшие результаты для этого запроса. Если посмотреть на их содержание, то обнаружится, что у этих лучших результатов есть несколько общих черт ...

На большинстве страниц с самым высоким рейтингом для "всеобъемлющего SEO-руководства" упоминаются такие термины, как "поисковые системы", "создание ссылок", "исследование ключевых слов" и т. Д. - термины, с которыми мы все согласны, должны присутствовать в руководстве по SEO, в котором называются Сам по себе всеобъемлющий. Так что это впечатляющий способ RankBrain реинжиниринга человеческого мозга.

Инструмент TF-IDF в WebSite Auditor делает нечто похожее: он анализирует самые популярные страницы для ваших целевых ключевых слов и ищет термины и фразы, которые используют многие из них. Это тематические термины и понятия, которые помогут вам повысить релевантность (и, следовательно, рейтинг) ваших страниц в эпоху семантического поиска.

Как TF-IDF работает в WebSite Auditor

Новый инструмент TF-IDF в WebSite Auditor позволяет вам находить термины, которые по своей сути связаны с вашими целевыми ключевыми словами или темами, судя по содержанию ваших наиболее эффективных конкурентов. Он использует тот же алгоритм TF-IDF, что и поисковые системы, только набор документов - это не Интернет, а ваши 10 лучших конкурентов.

Чтобы начать анализ, перейдите в Content Analysis> TF-IDF в WebSite Auditor , выберите страницу, которую вы собираетесь оптимизировать, и введите целевое ключевое слово. Пока вы в этом, вот что приложение делает за кулисами:

1. Перейдите к результатам поиска Google, чтобы выбрать 10 самых рейтинговых конкурентов по целевому ключевому слову.

2. анализирует содержание каждого из конкурентов;

3. Составляет полный список слов и фраз, которые участники используют в своем контенте;

4. Рассчитывает TF-IDF для использования каждого термина на каждой странице и среднего TF-IDF каждого термина среди 10 страниц;

5. Рассчитывает TF-IDF для использования тех же терминов на вашей странице;

6. Создает таблицу из этих ключевых слов и красивый график для вас, чтобы посмотреть.

Список терминов, которые вы видите, отсортирован по количеству страниц конкурентов, которые их используют - это гарантирует, что самые важные, релевантные термины появятся в верхней части. Столбец Рекомендации содержит рекомендации по использованию каждого термина, который отображается на страницах 5 или более конкурентов:

  • Добавьте, если вы не используете важный термин вообще;
  • Используйте больше, если TF-IDF термина на вашей странице ниже минимального значения конкурентов;
  • Используйте меньше, если термин TF-IDF выше наивысшего значения конкурентов.

Вы даже можете вносить изменения в свою страницу и реализовывать эти рекомендации прямо в WebSite Auditor, зайдя в Редактор контента , где вы можете редактировать контент в редакторе WYSIWYG или в HTML.

Попробуйте поиграть с инструментом TF-IDF самостоятельно в бесплатной версии WebSite Auditor - обещаю, вам предстоит не только несколько захватывающих открытий.

Загрузите WebSite Auditor, чтобы попробовать инструмент TF-IDF:

Если вы хотите проанализировать более 500 страниц, сохранить проекты и экспортировать данные из приложения, вы можете получить полную лицензию WebSite Auditor здесь ,

Последнее слово предостережения - пожалуйста, не принимайте буквально каждую рекомендацию на панели инструментов TF-IDF. Алгоритм делает все возможное, чтобы подобрать для вас лучшие условия и дать совет по использованию; но прежде чем вносить изменения в свою страницу, помните, что любой контент, который вы добавляете, должен иметь ценность для пользователя. Другими словами, не пытайтесь использовать это как способ заставить поисковые системы думать, что ваша страница - это то, чем она на самом деле не является; вместо этого используйте его в качестве алгоритмического вдохновения для ключевых идей и улучшения вашего контента.

WTF, TF-IDF?
О том, как смешивать свежевыжатые соки
Ни для кого не секрет, что стакан свежевыжатого овощного или фруктового сока, способен придать заряд энергии и бодрости, а также положительным образом отразиться на состоянии здоровья человека. При этом

Полный список кандидатов в президенты страны станет известен к концу января
9 января 2008, 15:53 Текст: editor На будущей неделе закончится срок приема документов для регистрации кандидатов в президенты. На принятие решения по документам у Центризбиркома будет десять дней. НОРИЛЬСК.

ЄДНІСТЬ : У Києві через високий рівень захворюваності на грип та ГРВІ закрили вже 75 шкіл
У Києві призупинено заняття у 75 школах (2127 класів), у яких рівень захворюваності на грип та ГРВІ перевищив 20%. Інформує  «Є!» , з посиланням на УНІАН. Про це наразі повідомив перший заступник

Список полезных заготовок из овощей и фруктов на зиму
Список полезных заготовок из овощей и фруктов на зиму Август и сентябрь — традиционно хлопотное время для многих хозяек, садоводов и дачников-любителей. В первую очередь необходимо собрать урожай или

Березовый сок можно ли использовать при сахарном диабете
Березовый сок при сахарном диабете — сахарный диабет: все о заболевании и методах лечения Березовый сок с давних времен славится своими целебными свойствами. Дело в том, что в весенний период береза

Свежевыжатые соки. (кому не лень читать)
Вы видели фильм о , которую исследовал японский ученый Имоту Масара? Уникальные опыты показали, что структурированная жидкость может творить чудеса и оздоравливать наши клетки, омолаживая организм

Купажирование и подслащивание соков
Некоторые соки иногда бывают пресными, слишком кислыми или недостаточно сладкими. Чтобы такие соки были полноценными по вкусовым и питательным качествам, к ним добавляют соки из того же вида сырья, но

Лечение рака по Бройсу и др
Лечение Рака по Бройсу. (Рудольф Бройс) «Совсем недавно китайские медики обнаружили, что у онкобольных количество микроэлементов в печени, в волосах и некоторых других органах резко снижено. Возможно,

С каким соком пить водку?
Ответ: С каким соком пить водку? ВИНОВАТ АНТИАЛКОГОЛЬНЫЙ ФЕРМЕНТ - Владимир Георгиевич, главный вопрос

Сок добрый
Министерство общего и профессионального образования Российской Федерации Санкт-Петербургский Государственный Технологический институт (Технический университет) Факультет Экономики и