Гугль палит сапу, сканируя дубликаты?

12 3
V
На сайте с 20.06.2012
Offline
62
2578

Есть один свежий сайт, ему ~3 недели.

На нем все линки вида /страница/блаблабла

То есть без html на конце.

Сегодня гугль просканировал все такие страницы сначала по нормальному адресу, и сразу после этого с index.html на конце - /страница/блаблабла/index.html . Взять такие URL гуглу неоткуда, входящих ссылок нет. Но по идее если сайт сделан на статике - эти URL обычно валидные, как правило в этом случае отдавется то же, что и для без index.html

Если бы на сайте была сапа, на /страница/блаблабла ссылки бы были, а с index.html нет.

Зачем гуглу это могло быть нужно, кроме палева продажных ссылок?

Раньше ничего подобного не замечал.

Ripro
На сайте с 04.11.2006
Offline
144
#1
veille:
Есть один свежий сайт, ему ~3 недели.
На нем все линки вида /страница/блаблабла
То есть без html на конце.
Сегодня гугль просканировал все такие страницы сначала по нормальному адресу, и сразу после этого с index.html на конце - /страница/блаблабла/index.html . Взять такие URL гуглу неоткуда, входящих ссылок нет. Но по идее если сайт сделан на статике - эти URL обычно валидные, как правило в этом случае отдавется то же, что и для без index.html

Если бы на сайте была сапа, на /страница/блаблабла ссылки бы были, а с index.html нет.
Зачем гуглу это могло быть нужно, кроме палева продажных ссылок?
Раньше ничего подобного не замечал.

При чем тут сапа? Если проиндексировал - значит есть ссылки, открыты к индексации.

Если страницы доступны по двум адресам - пропишите канонические ссылки или уберите дубли.

V
На сайте с 20.06.2012
Offline
62
#2
Ripro:
При чем тут сапа? Если проиндексировал - значит есть ссылки, открыты к индексации.
Если страницы доступны по двум адресам - пропишите канонические ссылки или уберите дубли.

Не, ты не понял.

Страницы по двум адресам сразу не доступны, сервер отдал 404. Но если бы они были доступны (а при такой конфигурации URL они часто доступны и так и так), и если бы стояла сапа, на версии без index.html были бы ссылки, а с index.html нет. Сапа привязывает свои ссылки тупо по URL, не разбираясь есть дубли или нет.

Еще вспомнил, этот сайт я засветил на англоязычных вебмастерских форумах, как раз в разделах, где в том числе продают ссылки. Но ни одной входящей ссылки с index.html на сайт не было и нет.

Ripro
На сайте с 04.11.2006
Offline
144
#3
veille:
Не, ты не понял.
Страницы по двум адресам сразу не доступны, сервер отдал 404. Но если бы они были доступны (а при такой конфигурации URL они часто доступны и так и так), и если бы стояла сапа, на версии без index.html были бы ссылки, а с index.html нет. Сапа привязывает свои ссылки тупо по URL, не разбираясь есть дубли или нет.

Еще вспомнил, этот сайт я засветил на англоязычных вебмастерских форумах, как раз в разделах, где в том числе продают ссылки. Но ни одной входящей ссылки с index.html на сайт не было и нет.

Говорить реально не о чем - если бы были, то были бы, если бы стояла, были бы ссылки.

Вы сайт на дубли проверяли? Если есть внутренние ссылки на страницы-дубли, этого достаточно для индексации - внешние для этого не нужны.

V
На сайте с 20.06.2012
Offline
62
#4

вот же ж

Говорю реальный факт

Дублей нет и не может быть

Ссылкам с index.html неоткуда взяться

Если гугл пытался угадать, что могут быть подобные дубликаты и просканировать их, значит ему это зачем-то нужно.

Зачем гуглюю это может быть нужно, кроме как чтобы искать отличия в контенте, которые обычно бывают из-за сапы? Вот в чем вопрос. Не "что мне делать, чтобы этого не было", а "зачем гуглю это".

Ripro
На сайте с 04.11.2006
Offline
144
#5
veille:
вот же ж

Говорю реальный факт

Дублей нет и не может быть
Ссылкам с index.html неоткуда взяться

Если гугл пытался угадать, что могут быть подобные дубликаты и просканировать их, значит ему это зачем-то нужно.

Зачем гуглюю это может быть нужно, кроме как чтобы искать отличия в контенте, которые обычно бывают из-за сапы? Вот в чем вопрос. Не "что мне делать, чтобы этого не было", а "зачем гуглю это".

Т.е. у вас есть лог поведения бота гугла на сайте, где видно, что он просто "искал" адреса, которых на сайте нет?! Подобные адреса на массе сайтов - при чем тут сапа? :)

Можно урл сайта в ЛС?

V
На сайте с 20.06.2012
Offline
62
#6

Именно.

Есть лог, где гугль искал адреса, которых нет. Причем не просто адреса, а такие адеса, которые довольно часто бывают в таких случаях, просто добавляя /index.html к URL сущестующих страниц.

Подобные адреса на массе сайтов - при чем тут сапа?

Зачем гуглю это? Зачем он пытается угадать дубликаты?

Сапа (или аналог) здесь при том, что если она есть, на одном дубликате ссылки будут, а на другом нет. А если сапы нет, ссылки или будут на обоих дубликатах или не будут также на обоих дубликатах.

Если не палево ссылок, зачем еще гуглю это может быть нужно? Для чего тратить ресурсы своих пауков? Проверять, не статика ли это, замаскированная под динамику? А смысл?

Сайт нельзя, но просто поверь на слово, что таких ссылок там быть не может. 100% самописная динамика без всяких там html, URL параметров и прочего.

september
На сайте с 11.09.2009
Offline
591
#7

У меня 404 Error появляется при добавлении лишних символов. У вас что открывается та же страница? Беда значит, раз переадресация не настроена

$ карта для вывода вебмани в любой точке мира (https://www.epayments.com/registration?p=dc2462e885)
Ripro
На сайте с 04.11.2006
Offline
144
#8
veille:
Именно.
Есть лог, где гугль искал адреса, которых нет. Причем не просто адреса, а такие адеса, которые довольно часто бывают в таких случаях, просто добавляя /index.html к URL сущестующих страниц.


Зачем гуглю это? Зачем он пытается угадать дубликаты?
Сапа (или аналог) здесь при том, что если она есть, на одном дубликате ссылки будут, а на другом нет. А если сапы нет, ссылки или будут на обоих дубликатах или не будут также на обоих дубликатах.
Если не палево ссылок, зачем еще гуглю это может быть нужно? Для чего тратить ресурсы своих пауков? Проверять, не статика ли это, замаскированная под динамику? А смысл?

Сайт нельзя, но просто поверь на слово, что таких ссылок там быть не может. 100% самописная динамика без всяких там html, URL параметров и прочего.

Паранойя какая-то честное слово. Если движок самопис - еще не значит, что там нет и не было таких ссылок. Я ни разу не видела, чтобы боты искали ссылки, которых нет :)

А уж связывать это с сапой и пытаться понять почему происходит - и вовсе лишняя трата времени, имхо.

V
На сайте с 20.06.2012
Offline
62
#9
Если движок самопис - еще не значит, что там нет и не было таких ссылок.

Я _знаю_, что таких ссылок там нет :) Я сам этот движок писал, сам натягивал темплейт, делал такое не в первый раз и абсолютно точно _знаю_, какие ссылки у меня есть, а какие нет :)

Я сейчас посмотрел весь лог сервера. В течение трех недель гугл ходил себе по правильным ссылкам как воспитанный бот, не умничая и не пытаясь гадать. А сегодня взял и резко просканировал сначала правильные ссылки, убедился что они работат, все хорошо, а потом тут же добавил к каждой из них index.html и пытался просканировать уже их, закономерно получив 404. У меня около 100 сайтов, и раньше я тоже такого не видел, хотя может просто не обращал внимания. Нахрена это гуглу - вот что мне непонятно.

Сразу предвосхищая вопрос - скан шел с IP гугла, 66.249.75.195

Евген
На сайте с 28.02.2004
Offline
1051
#10
veille:
Гугль палит сапу, сканируя дубликаты?

ага. делать ему больше нечего :D

Арбитражишь? подними РОИ на 10-20% - бонусы на пополнение рекламных сетей (тм, мт, твк, твс) (https://eprofit.me/ru/partner?olymp)
12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий