Оптимизаторам известно простое правило: поисковая система и посетитель должны получать от сайта одинаковый контент. В том случае если это правило не соблюдается, можно говорить о таких «чёрных» приёмах оптимизации, как клоакинг и свопинг. Если с этими приёмами поисковые системы научились достаточно неплохо бороться, то ситуация с «легальным» скрытием контента от поисковых систем до конца не ясна. Речь идёт об использовании тега noindex. Известно, что он позволяет ограничить от индексации часть страницы сайта. Понятно, что при использовании этого тега может возникнуть ситуация, когда то, что видит пользователь на странице сайта, и то, что учитывается поисковой системой, - два совершенно разных документа. Скрытыми могут оказаться существенные области контентной зоны страницы. Очевидно, что чем больше по объёму текстовая область, закрытая в noindex, тем выше вероятность того, что «индексируемый» и «пользовательский» документ различны по смысловой нагрузке.
В статье мы исследовали влияние объёма текста, закрытого в noindex, на позицию сайта в результатах поиска.
В рамках рассматриваемой проблемы сформулированы следующие задачи:
1. Исследовать популярность применения тега noindex и различных вариантов его написания.
2. Выявить объём текста, который в среднем закрывается в noindex.
3. Определить наличие зависимости между объёмом текста в noindex и позицией в поисковой системе Яндекс.
В исследовании принимали участие 2 группы сайтов:
1. Сайты, описанные в каталоге поисковой системы Яндекс. На момент написания статьи таких сайтов было более 100 тысяч.
2. Сайты с высокой видимостью в поисковой системе Яндекс. К ним отнесли такие сайты, которые выводят в число первых 20 ссылок в поисковой системе Яндекс по 300 случайно выбранным средне- и высокочастотным запросам.
Учитывая объём выборки, а также наличие разных источников с разным принципом их формирования, считаем её репрезентативной.
Популярность тега noindex и различные варианты написания
Исследовался html-код для главных страниц всех сайтов из двух выборок. Программно производился поиск вхождения тега в текст страницы.
После анализа полученной информации было установлено, что в первой выборке (Яндекс.Каталог) только на 26,4% сайтов встречается тег noindex.
Во второй выборке (сайты с высокой видимостью в Яндексе) тег noindex встречается в 56% случаев. Разница в показателях говорит о том, что данным тегом в большинстве случаев пользуются, в основном, SEO-специалисты для увеличения внутренней релевантности документа.
Исследование показало, что обычно noindex используется в невалидной форме. Так, из всех сайтов, где встречается noindex, только на 2% сайтов употреблен тег в том виде, в каком это рекомендуется в документации поисковой системы Яндекс:
Второй вариант валидного написания
распространён ещё реже – 0,6% в исследуемой выборке, несмотря на то что он является более «старым» вариантом обеспечения валидности.
Полученные данные позволяют предположить, что в большинстве случаев noindex ставится не разработчиками, а теми, кто занимается поисковым продвижением сайта. Именно поэтому валидности страницы уделяется мало внимания.
Для скрытия от индексирующего робота исходящих ссылок существует дополнительный атрибут тега
В выборке из каталога Яндекса такой атрибут встречается на 14,6% сайтов. Притом что Google поддерживает этот атрибут давно, веб-мастера достаточно редко закрывают внешние ссылки таким образом. Rel=nofollow используется почти в 2 раза реже, чем парный тег noindex.
В выборке сайтов с высокой видимостью атрибут rel=nofollow встречается на 23,4% сайтов, что значительно выше, чем у общей выборки сайтов. Это обуславливается тем, что оптимизаторы более внимательно относятся к исходящим ссылкам, чем веб-мастера.
Объём текста и noindex
Сайты из выборок были исследованы на объём текста, закрытого в тег noindex. Для измерения объёма закрытого текста мы использовали отношение объема закрытого текста в теге noindex в символах к общему объему текста страницы в символах, выраженному в процентах. В таблице 1 представлено распределение сайтов в выборке из каталога Яндекса, в таблице 2 - в выборке сайтов с высокой видимостью.
Из данных таблиц 1 и 2 видно, что в большинстве случаев вебмастера закрывают от индексации до 20% контента на странице. В выборке сайтов с высокой видимостью, по сравнению с выборкой из Яндекс.Каталога, меньше сайтов, у которых закрыто до 10% контента, и больше сайтов, у которых закрыто от индексации от 10 до 20% содержания.
Выявление зависимости результатов поиска от объёма текста в noindex
Зная, что на положение сайтов в поисковых системах влияет большое количество разнонаправленных факторов, оценим возможное влияние закрытого объёма текста в теге noindex на результаты поиска.
Используя выборку сайтов с высокой видимостью, построим график зависимости позиции в результатах поисковой системы Яндекс от объёма текста, который закрыт на странице в noindex (рисунок 1).
Исходя из данных рисунка 1 видно, что чёткой закономерности, которая негативно или положительно влияла на результаты поиска, не существует. Точки на графике распределены равномерно.
Проведём статистический анализ данных для более точного выявления зависимости между позицией сайта в результатах поиска и объёмом текста, который закрыт в noindex. Для этого используем корреляционный анализ, рассчитаем коэффициент корреляции Пирсона, для двух исследуемых массивов данных:
Исходя из данных таблицы 3 следует вывод, что зависимости между объёмом текста, закрытым в noindex, и позицией сайта в результатах поиска не существует.
Выявим, отличается ли среднее распределение позиций сайтов, на которых встречается тег noindex, и сайтов, на которых данный тег отсутствует. Для этого вычислим математическое ожидание, дисперсию и среднеквадратического отклонение (таблица 4) трёх массивов данных (эталонный, с noindex и без noindex) между собой.
Разница статистических показателей трёх выборок находится в рамках погрешности, обусловленной размерами выборки. Следовательно, распределение позиций для страниц, где встречается тег noindex, соответствует распределению позиций для страниц, где такой тег отсутствует.
Из вышесказанного можно сделать вывод, что наличие тегов noindex и объем текста, который они закрывают от индексации, напрямую не оказывают влияния на ранжирование сайта.
Выводы
В выборке сайтов из каталога Яндекса тег noindex встречается на 26,4% сайтов. На 56% сайтов в выборке с высокой видимостью в поисковых системах часть текста закрыта от индексации.
В большинстве случаев вебмастера закрывают от индексации до 20% содержимого страницы. В выборке сайтов с высокой видимостью, по сравнению с выборкой из Яндекс.Каталога, меньше сайтов, у которых закрыто до 10% контента, и больше сайтов, у которых закрыто от индексации от 10 до 20% содержания.
Исходя из полученных данных, можно сделать вывод, что наличие тега noindex на страницах сайта и объём текста, который закрыт от индексации, не влияют на позиции в результатах поиска.
Сахно Олег
Рубель Алексей
ИнтерЛабс