Faq

F
На сайте с 15.11.2000
Offline
116
#1

Q1. Как узнать, что мой сайт проиндексирован? Какие страницы сайта проиндексированы?

Есть минимум 3 способа узнать об этом:

1. Некоторые поисковики при повторной попытке добавления сайта выдают об этом сообщение. В частности, так делает Яндекс.

2. Большинство поисковиков предоставляют возможность расширенного (advanced) поиска, в котором можно осуществить поиск по URL.

3. Если поиск по URL не осуществляется, то можно просто в строке поиска указать URL своего сайта. В этом случае в результатах будут выданы все упоминания вашего сайта (а не только ссылки) и собственно страницы вашего сайта. В запросе URL желательно брать в кавычки (чтобы не находились страницы, где слова из имени домена встречаются в разных местах) и не включать в него имя протокола (http). В большинстве поисковиков, как только в результатах поиска будет найдена страница нужного сайта, можно выбрать пункт вроде "Еще с сервера" (Яндекс) или "More results from ..." (Google).

Следует заметить, что современные поисковики часто строятся на основе кластерной технологии, и отсутствие сайта в результатах поиска может не означать, что сайта нет в индексе -- просто один из элементов кластера не успел ответить за отведенное ему время. Попробуйте задать запрос чуть позже, а лучше во время минимальной нагрузки на поисковик (ночью).

На вопрос отвечали: Артем Шкондин (AiK), Андрей Хроленок (LiM), Александр Садовский (funsad).

F
На сайте с 15.11.2000
Offline
116
#2

Q2. Что значит "сайт забанен"? Как узнать, что мой сайт забанен? Как выйти из "черного списка"?

Поисковые системы для ранжирования результатов поиска используют далеко не идеальные алгоритмы. Если воспользоваться их слабостями, то можно протолкнуть на первые места сайт, который никогда не попал бы туда честным путем. Конечно, создатели поисковиков совершенствуют алгоритмы, но не менее полезным оказывается ручной запрет на индексацию сайтов, пользующихся нечестными приемами. Такой запрет и называется "бан", а вносить сайт в черный список означает "банить" (от англ. to ban).

Поисковики банят сайт полностью, то есть он просто выкидывается из индекса и ни одна его страница не появляется в результатах поиска. Могут ли сайт забанить только по некоторым запросам? Это маловероятно. По сути, это уже будет не наказание спамера, а попытка улучшить алгоритм с помощью ручной коррекции, что очень непродуктивно. Как правило, проседание сайта по некоторым запросам вызвано не баном, а иными причинами.

Достоверно узнать, что сайт забанен можно только в одном из поисковиков -- Яндексе, который при попытке повторного добавления URL выводит сообщение вида "Документ запрещён к индексации". В остальных поисковиках для определения бана следует использовать косвенные признаки. Например, в Google у сайта, который забанен, в тулбар показывает PR=0/10 (хотя не все сайты с PR=0/10 забанены).

Амнистия для сайта наступает, в большинстве случаев, только после переписки с поисковиком, и процедура может отнять не один месяц. Поэтому, если поисковики приносят вам заметную долю трафика, особенно рисковать спамерскими приемами не стоит.

За что банят? За любые действия, которые могут быть сочтены поисковиком как попытка воздействовать на результаты поиска. Подробности можно прочесть в лицензионном соглашении Яндекса, или FAQ Google.

На вопрос отвечали: Артем Шкондин (AiK), Александр Садовский (funsad).

F
На сайте с 15.11.2000
Offline
116
#3

Q3. Почему Яндекс (Google, Rambler, и т.д.) не индексирует мой сайт? Как заставить его проиндексировать сайт?

Возможны несколько причин, по которым сайт не индексируется.

  • Прошло недостаточно времени с момента заполнения формы добавления сайта. Самый быстрый робот у Яндекса. Если он не загружен, то добавляемая страница появляется в результатах поиска уже через 3 часа. Большинство страниц попадают в индекс не позже, чем через неделю с момента добавления. У остальных поисковиков время обновления индекса существенно больше -- можно начинать беспокоится месяца через полтора.
  • В момент визита робота поисковика сайт был недоступен или имел очень большое время отклика. Если сервер "тормозит" не постоянно, то рано или поздно сайт попадёт в поисковик. Через какое время -- см. пункт 1.
  • Некоторые поисковики (например, Google) индексируют только те сайты, на которые есть хотя бы одна внешняя ссылка с документа, уже проиндексированного данным поисковиком.
  • Некорректная настройка сервера. Самая распространённая ошибка среди любителей использовать .htaccess -- в результате применения директив ErrorDocument или RewriteRule робот поисковика при обращении к robots.txt получает от сервера код отличный от 200(OK) или 404 (Not Found). Некоторых роботов (Rambler) это вводит в ступор и индексация не произойдёт до тех пор, пока не ошибка не будет исправлена. Как избежать ошибки: в случае использования ErrorDocument всегда создавать robots.txt хотя бы и пустой, в случае использования RewriteRule быть аккуратным и всегда проверять код ответа сервера.
  • Неправильно написанный robots.txt. При попытке запретить индексацию сервера для какого-либо робота под правило попадают и другие роботы. Также сюда можно отнести запрещение индексирования всего домена: в случае страниц вида http://домен/~пользователь/blabla.html локальный robots.txt работать не будет, а в общем robots.txt пользовательские страницы могут быть запрещены к индексации для уменьшения нагрузки на сервере. Как избежать ошибки? Всегда проверять правильность составления robots.txt.
  • Поисковик не может распознать ссылки на страницах сайта. Самый распространенный случай -- все ссылки сделаны на JavaScript или на Flash. Некоторые поисковики неадекватно понимают редиректы. Наиболее "безопасен" в этом смысле Google -- он отлично справляется как со ссылками на флэше, так и с редиректами, и лишь JS ему еще не совсем по зубам.
  • Сайт был забанен. Подробности см. в Q2 FAQ.
  • Проблемы у поисковика. Серьезные сбои редки, но случаются, и если избыточность аппаратуры оказывается недостаточной, часть индекса теряется. Кроме того, как говорилось в Q1 FAQ, проблемы могут быть связаны с кластерной структурой поисковика.
  • Использование динамических страниц. Это будет раскрыто в отдельном пункте FAQ, а пока можно заметить, что динамические страницы индексируются нормально далеко не всеми поисковиками. Почему? Динамика несет два вида проблем. Первая -- дублирование информации. Если для сайта URL вида .../page.php?par1=x&par2=y означает, как правило, то же, что и .../page.php?par2=y&par1=x, то для поисковика это совсем другая страница. Особенно часто эта проблема возникает при отслеживании сессий посетителей -- роботы поисковиков не используют cookies, и потому URL для них каждый раз меняется. Вторая проблема -- робот может легко перегрузить сайт, который формирует страницы динамически.
  • Сайт находится в неиндексируемой зоне. У каждого поисковика есть своя "область действия", например, Яндекс и Рамблер охватывают русскоязычную часть интернета. Поэтому, если сайт не входит в соответствующие доменные зоны (например, su, ru, am, az, by, ge, kg, kz, md, tj, ua, uz для Яндекса; ru, su, ua, by, kz, kg, uz, ge для Рамблера), то автоматическая индексация может не пройти. В таком случае необходимо написать письмо в службу поддержки поисковика с просьбой о включении сайта в индекс.
  • Многие крупные поисковики чураются бесплатных хостингов с сотнями тысяч сайтов, равно как и редиректных служб (таких, как da.ru) и если ваша страница расположена на одном из подобных хостингов, индексации можно ждать вечно.

На вопрос отвечали: Артем Шкондин (AiK), Андрей Хроленок (LiM), Сергей (Wolf), Александр Садовский (funsad).

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий