Google и "кривые" ссылки

291

Nikolai Popkov

8 мая 2004, 07:54

4408

Это

http://www.google.ru/search?q=cache:eBK1rwQMK3sJ:top100.rambler.ru/top100/Recreation/rate10.0.shtml.ru+&hl=ru

- хранящийся в G o o g l e кеш ссылки http://top100.rambler.ru/top100/Recreation/rate10.0.shtml.ru

ссылки на этой странице на сайты имеют вид

top100.rambler.ru/click?gr=56&p=8&i=474739&t=10&_URL=http://сайт.ru/

в корне домена есть файл

http://top100.rambler.ru/robots.txt :

User-agent: *

Disallow: /cgi-bin

Disallow: /cgi-top100

Disallow: /click

Disallow: /cluck

Таким образом, порядочный робот Google не должен идти по этой ссылке, которая начинается с запрещенного адреса top100.rambler.ru/click

Тем не менее ссылки на страницы в домене top100.rambler.ru есть во многих "Обратных ссылках" на сайты, например:

http://www.google.ru/search?sourceid=navclient&hl=ru&q=link:http%3A%2F%2Fwww.nix.ru%2F

или

http://www.google.ru/search?sourceid=navclient&hl=ru&q=link:http%3A%2F%2Fwww.consultant.ru%2F

Я полагаю, что робот Google и не идет по ссылке, а прямо учитывает содержащийся в теле ссылки адрес http://сайт.ru/ .

партнерские программы (http://www.ebanners.ru/viewforum.php?f=7), словарь термины SEO (http://www.ebanners.ru/viewtopic.php?t=548) Форум маркетинг (http://www.reclama.su/) Reclama.Su, обмен ссылками (http://www.ebanners.ru/viewforum.php?f=13), Reklama.SU: контекстная реклама (http://www.reklama.su/) по цене Яндекса+продвижение за результат

291

Nikolai Popkov

8 мая 2004, 08:05

#1

в тему

- Но у него ж кривой!

- Ну, мы с мамой посоветовались - нам, таки, из него не стрелять...

228

SilverMaster

8 мая 2004, 09:05

#2

Как писал Nikolai Popkov
Это

http://www.google.ru/search?q=cache:eBK1rwQMK3sJ:top100.rambler.ru/top100/Recreation/rate10.0.shtml.ru+&hl=ru

- хранящийся в G o o g l e кеш ссылки http://top100.rambler.ru/top100/Recreation/rate10.0.shtml.ru

ссылки на этой странице на сайты имеют вид

top100.rambler.ru/click?gr=56&p=8&i=474739&t=10&_URL=http://сайт.ru/

в корне домена есть файл

http://top100.rambler.ru/robots.txt :
User-agent: *
Disallow: /cgi-bin
Disallow: /cgi-top100
Disallow: /click
Disallow: /cluck

Таким образом, порядочный робот Google не должен идти по этой ссылке, которая начинается с запрещенного адреса top100.rambler.ru/click

Тем не менее ссылки на страницы в домене top100.rambler.ru есть во многих "Обратных ссылках" на сайты, например:

http://www.google.ru/search?sourceid=navclient&hl=ru&q=link:http%3A%2F%2Fwww.nix.ru%2F

или

http://www.google.ru/search?sourceid=navclient&hl=ru&q=link:http%3A%2F%2Fwww.consultant.ru%2F

Я полагаю, что робот Google и не идет по ссылке, а прямо учитывает содержащийся в теле ссылки адрес http://сайт.ru/ .

я может быть слабо шарю, НО...

роботс.тхт запрещает роботу ИНДЕКСИРОВАНИЕ страниц лежащих под top100.rambler.ru/click а не хождение по ссылкам.

а линк top100.rambler.ru/click?gr=56&p=8&i=474739&t=10&_URL=http://сайт.ru/ ведет не на субдомен top100.rambler.ru/click а на сайт http://сайт.ru/

можно предположить, что робот кликнув на линк попал в незапрещенную зону и спокойно защитал ссылку.

у меня встречный вопрос.. почему вас так парит этот вопрос? уже в двух топиках, которые превращаются обычно во флейм?

Из детских комшаров: "А вдруг ночью придет страшный робот!" Из взрослых: "И криво проиндексирует сайт". Не всякий гик добежит до середины поисковой страницы гугла

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

8 мая 2004, 09:31

#3

robots.txt запрещает любое обращение со стороны роботов к адресам, попадающим под шаблон. То есть робот, соблюдающий стандарт, не имеет права делать запрос GET /click?gr=56&p=8&i=474739&t=10&_URL=http://сайт.ru/ с какими-либо целями.

можно предположить, что робот кликнув на линк попал в незапрещенную зону и спокойно защитал ссылку.

Если это предположение верно - то получается что робот Google не соблюдает robots.txt. Вряд ли оно так.

Я полагаю, что робот Google и не идет по ссылке, а прямо учитывает содержащийся в теле ссылки адрес http://сайт.ru/ .

Похоже на то. Как и в случае с расковыриванием некоторых скриптовых редиректов.

почему вас так парит этот вопрос?

Да вообще-то тема довольно важная, т. к. учет подобных ссылок дает дополнительные возможности (получение ссылок оттуда, откуда традиционно было получать нельзя), и делает невозможным очень распространенный способ закрытия исходящих ссылок.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

291

Nikolai Popkov

8 мая 2004, 10:08

#4

SilverMaster,

я может быть слабо шарю

извините, да

роботс.тхт запрещает роботу ИНДЕКСИРОВАНИЕ страниц лежащих под top100.rambler.ru/click а не хождение по ссылкам.

разъясните, прежде всего себе самому, значение понятий, приведенных вами:

ИНДЕКСИРОВАНИЕ

и

хождение по ссылкам

вам самому всё станет понятно.

линк top100.rambler.ru/click?gr=56&p=8&i=474739&t=10&_URL=http://сайт.ru/ ведет не на субдомен top100.rambler.ru/click а на сайт http://сайт.ru/

он ведет на файл в домене top100.rambler.ru, которому в качестве одного из параметров передается адрес сайта. Дальнейшие действия целиком зависят от этого файла.

Например

https://www.nic.ru/whois/?domain=сайт.ru

выдает вовсе не переход на сайт.ru , а информацию по домену сайт.ru.

можно предположить, что робот кликнув на линк попал в незапрещенную зону и спокойно защитал ссылку.

во первых, "засчитал",

во вторых, вы правы, это первое предположение, которое возникло и у меня. После некоторых размышлений я от него отказался и пришел ко второму предположению, которое вы видите в первом сообщении этой темы. Большое спасибо за обсуждение.

почему вас так парит этот вопрос? уже в двух топиках

Не совсем понятно, какой ответ вы ожидали на свой вопрос.

Во первых, слово "парит" не то слово, которое принято использовать в приличном обществе, а тем более в профессиональном общении. Желая вам добра, прошу - не надо использовать подобные выражения.

Во вторых, темы влияния посещаемости по счетчикам на PR и учета Google "кривых" ссылок существенно отличаются, хотя я и привел одинаковые примеры.

Я думаю, что "кривые" ссылки, в которых содержится адрес сайта стоит назвать "полукривыми".

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

23

samlowry

8 мая 2004, 14:42

#5

М-да, уважительные отношения друг к другу в форуме...

И куда глядят модераторы? Я имею в виду, _некорумпированные_ модераторы.

Хочешь переехать в Таиланд? Вот волшебный пендель (http://dot.with.in/)!

А

58

Альен

9 мая 2004, 00:38

#6

Я уже поднимал эту тему ранее, и приводил те же доводы, что и Nikolai Popkov

Более того,

1 - своими глазами видел логи своего сайта, где гугл брал запрещенные url, и шел через внутренний редирект (302) дальше, запрашивая страницы которые ему также были запрещены.

2 - связывался с одним из своих партнеров, и обьяснял что платить деньги за то что гугл "проиндексировал" сто ссылок-редиректов с его сайта я не собираюсь (выяснилось разбором логов с его сайта).

В обоих случаях страницы были запрещены, и запрещающие записи были старыми.

Вывод - гугл кладет на robots.txt

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

55

xgenius

9 мая 2004, 06:59

#7

Отношение Гугля к Robots.txt известно давно. Он действительно "забивает" на него и идет по всем запрщенным к индексированию ссылкам. Но с другой стороны, даже если эти ссылки попадают в его базу, они абсолютно никак не ранжируются и не учитываются. Просто есть они все... Как констатация факта. :)

Мой Круг (http://dsemenov.moikrug.ru/) - Мой Блог (http://www.semenov.org/)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

291

Nikolai Popkov

9 мая 2004, 08:35

#8

Альен,

Я уже поднимал эту тему ранее, и приводил те же доводы, что и Nikolai Popkov

точнее не доводы, а один пример - рейтинг Рэмблера.

Доводы и тем более выводы у нас получились разные.

Я по прежнему считаю, что Google соблюдает robots.txt и не идет по ссылкам, а лиш учитывает url, содержащийся в ссылке.

Возможно учитывается всё, что стоит после последнего http:// :

top100.rambler.ru/click?gr=56&p=8&i=474739&t=10&_URL=http://сайт.ru/

Что касается второго вашего примера с bs.yandex.ru/count/ - то там сами показываемые в результатах поиска ссылки от индексации не закрыты (они есть, например, на http://narod.yandex.ru/ а там это открыто http://narod.yandex.ru/robots.txt ), как это в рейтинге Рэмблера, а закрыты страницы, куда они ведут. В приведенных в вашем примере результатах поиска:

http://www.google.com/search?q=+site:bs.yandex.ru&hl=ru&lr=&ie=UTF-8&oe=UTF-8&as_qdr=all&start=10&sa=N

- нет ссылок "Сохранено" под ссылками на страницы - то есть, скорее всего, копий этих страниц и нет в кэше Google - он туда не ходил.

Спасибо за обсуждение.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

291

Nikolai Popkov

20 мая 2004, 20:34

#9

rax тоже учитывает:

вот из "обратных ссылок" одного сайта

Сайты Рунета / Софт

LiveInternet, обновлено 19 мая в 8:45. ...

www.rax.ru/rating/ru/software/

там ссылки имеют вид

http://www.rax.ru/go?www.сайт.ru/

M

13

monarch

21 мая 2004, 06:33

#10

Данная тема поднималась уже очень много раз. Ищите в поиске.

"Contra factum non datur argumentum". Против фактов аргументы бессильны.

Что такое Power BI и зачем это нужно бизнесу

Дзен реализовал для авторов возможность вывода денег через СПБ