Google Bot стал еще глупее

12
SK
На сайте с 24.12.2007
Offline
76
2174

Я заметил, что Google бот стал еще глупее, чем был прежде:

1) Он не умеет слеивать айпи сайта и сайт либо делает это очень плохо. Вместо некоторых сайтов выдаются айпи т.к. Google думает что это разные сайты.

2) Он с трудом склеивает домены с www. и без. Иногда он думает что это разные сайты. Раньше таких проблем небыло.

3) Он индексирует страницы типа out.cgi?url=http://www.domain.com/, которые просто перенаправляют пользователя на определенный сайт, как страницы сайта.

Я не могу говорить с определенностью, но возможно подобная проблема может привести к наложению фильтра на сайт. Google думает что у разных сайтов есть одинаковый контент. Хотя сайт всего один.

Вполне возможно что из за этих ошибок работы алгоритма у Google и вырос индекс на 15%. А они это приподносят как улучшение :)

angr
На сайте с 11.05.2006
Offline
413
#1

что за бредовые предположения?

Требуется СЕО-Специалист в Кишиневе, в офис. ()
SK
На сайте с 24.12.2007
Offline
76
#2

Это не предположения:

1) Я видел айпи сайта в выдаче вместо сайта.

2) Я видел в выдаче страницы с www и без с одного и того же домена.

3) Я получал вот такое сообщение в Google Webmaster Tools:

The URL http://www.domain1.com/page1.html is no longer appearing in Google search results because our algorithms have selected http://www.domain2.com/out.php?url=http://www.domain1.com/page1.html&link=toplist instead.

Т.е. вместо моей страницы Google решил выдавать страницу которая на меня же редиректит, да еще и с моим тайтлом. По-моему это ошибка, причем серьезная.

То же самое может происходить внутри самого сайта. Допустим, часть ссылок на страницы контента редиректит через такой скрипт, чтобы оценить их популярность, а часть ссылок прямая. Похоже Google бот их теперь видит как разные страницы. Разные страницы с одинаковым контентом и как следствие фильтр.

Получается, что при неправильной настройке серверов Google Bot может видеть как разные 3 и более сайтов, которые на самом деле являются одним сайтом.

C6
На сайте с 25.05.2012
Offline
6
#3
Silver Knight:
Я заметил, что Google бот стал еще глупее, чем был прежде:

1) Он не умеет слеивать айпи сайта и сайт либо делает это очень плохо. Вместо некоторых сайтов выдаются айпи т.к. Google думает что это разные сайты.

айпи это эдак 1993-ий год :) Нынче - сотни сайтов на одном IP - норма. Если IP ваш и полностью подконтролен - при HTTP запросе по IP - 301 на тот-же URL "вашего самого главного сайта", если нет - то там уже реклама от хостера, и скажите спасибо, что ее не "склеивают" к вашему сайту.
2) Он с трудом склеивает домены с www. и без. Иногда он думает что это разные сайты. Раньше таких проблем небыло.

Для бота и аналитики - Настраиваемо как "Preferred domain" в "Webmaster Tools", плюс есть canonical URL (задуман для несколько других целей, но в качестве плацебо от паранойи тоже неплох).
Для пользователей - все абсолютные линки "на www.my-domain" и 301 с просто "my-domain".

3) Он индексирует страницы типа out.cgi?url=http://www.domain.com/, которые просто перенаправляют пользователя на определенный сайт, как страницы сайта.

out.cgi должен тупо возвращать 301 на http://www.domain.com/ и все будет ОК.
Если он возвращает нечто редиректящее через META REFRESH или JavaScript - проблемма не в боте, а в out.cgi
SK
На сайте с 24.12.2007
Offline
76
#4

Что делать по пункту 1 и пункту 2 понятно. Просто раньше я этого не делал и никаких проблем с этим небыло. А после последнего апдейта сайты попали под фильтр, возможно из за этого. Некоторые сайты были не на одном айпи, а сразу на нескольких т.к. они одновременно располагались на нескольких серверах (крупные сайты по нескольку сотен тысяч посетителей в день). Т.е. получилась такая ситуация, что гугл видит несколько "разных" сайтов с одинаковым контентом, хотя на самом деле они являются одним сайтом.

Что касается пункта 3, то тут я могу внести соответствующие изменения только на своем сайте. Я вообще закрыл этот скрипт он индексации. Однако я не могу повлиять на другие сайты, с которыми я обмениваюсь трафиком. Получается, что Google видит такие урлы на них как отдельные страницы с моим контентом.

alexfrx
На сайте с 19.04.2012
Offline
3
#5

В соседней теме писал: гуль похоже разучился ещё и пуникод в кириллицу транслировать 😒

И, главное, обратной связи с ними - никакой. Хз как вопросы решать.

SK
На сайте с 24.12.2007
Offline
76
#6

Я еще хочу добавить по out.cgi. В некоторых скриптах обмена трафиком (которые очень популярны) редирект в разных случаях происходит на разные страницы. Поэтому использовать 301 редирект нету возможности.

Обратной связи действительно никакой. Форум поддержки не особенно помогает. Там можно получить ответы только на самые банальные вопросы. Как только ситуация сложнее этот вопрос полностью игнорируется. Я уже не раз с этим сталкивался, еще до этой ситуации.

В соседней теме писал: гуль похоже разучился ещё и пуникод в кириллицу транслировать

Я видел ваше сообщение на форумах поддержки Google. Вам никто не смог помочь т.к. вы не там задали свой вопрос. Как я писал выше любой сложный вопрос игнорируется.

webrock
На сайте с 05.04.2010
Offline
261
#7
Silver Knight:


Я видел ваше сообщение на форумах поддержки Google. Вам никто не смог помочь т.к. вы не там задали свой вопрос. Как я писал выше любой сложный вопрос игнорируется.

Если как в вашем первом псту написано, так у меня даже голова разболелась такое читать ...

Гугл проклеивает с WWW и без него, очень хорошо. А что значит склеивать IP сайта? На то он и IP что бы его ни какой дурак не склеял...

Даже если вы в роботсе не укажите хост или роботса вообще не будет, то Гугл может и сам разобраться что к чему. Ну, а в вашем случае, дайте покушать боту, то чего вам нужно и всё будет гуд.

Полный аудит сайтов. (/ru/forum/765361)
SK
На сайте с 24.12.2007
Offline
76
#8
webrock:
Гугл проклеивает с WWW и без него, очень хорошо.

Я тоже так раньше считал. Но в моем случае Google сделать это не сумел.

webrock:
А что значит склеивать IP сайта? На то он и IP что бы его ни какой дурак не склеял...

В моем случае сервера были настроены так, что при заходе на айпи (просто набрать айпи в адресной строке) выдывался привязанный к этому айпи сайт. Разве что исключения для антихотлинков не работали. Google не сумел самостоятельно понять что и айпи и домен это один и тот же сайт.

Я понимаю как решить эту проблему. Но возможно кто-то имеет похожие настройки на своих серверах. Я просто хотел сказать, что не стоит рассчитывать на то, что Google Bot разберется что к чему самостоятельно.

webrock
На сайте с 05.04.2010
Offline
261
#9
Silver Knight:

В моем случае сервера были настроены так, что при заходе на айпи (просто набрать айпи в адресной строке) выдывался привязанный к этому айпи сайт.

Ну, собственно так и должно быть. Если у вас имеется один, два или три IP, вы назначаете им домены по умолчанию, а DNS делает своё дело.

На одном IP могут быть несколько доменов. Вы так же можете изменить IP своим доменам, перехать на другой сервер, но уникальность домена останется.

Поисковые системы как ложат бан на домен? Они же не будут весь IP банить (только в крайних случаях)...

C6
На сайте с 25.05.2012
Offline
6
#10
Silver Knight:
Т.е. получилась такая ситуация, что гугл видит несколько "разных" сайтов с одинаковым контентом, хотя на самом деле они являются одним сайтом.

Не совсем понял вашу проблемму. Ни пользователи ни боты в принципе не должны видеть URL-ов типа http://<site-ip>/..., только http:/<my-site-domain>/...

В качестве балансировщика для сотни-двух тысяч посетителей в день вполне справляется один nginx на самом дешевом root-server-е от хейзнера. Если этого недостаточно - дальнейшее масштабирование должно делаться уже на уровне DNS, при этом опять-же - никаких IP, только домены.

Что касается пункта 3, то тут я могу внести соответствующие изменения только на своем сайте. Я вообще закрыл этот скрипт он индексации. Однако я не могу повлиять на другие сайты, с которыми я обмениваюсь трафиком. Получается, что Google видит такие урлы на них как отдельные страницы с моим контентом.

Этот контент с т.з. гугла получается скорее "ихним", чем "Вашим" 😡

- (1) позаботьтесь об том, чтобы скормить его googlebot-у первым (внутренняя перелинковка, которая строится при посщениях бота рулит)

- (2) пометьте его как "свой" с помощью microdata, microformats, rdf и т.д.

- (3) не отдавайте контент до того, как он проиндексирован на вашем сайте

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий