Гугль палит сапу, сканируя дубликаты?

62

veille

17 ноября 2013, 13:08

2578

Есть один свежий сайт, ему ~3 недели.

На нем все линки вида /страница/блаблабла

То есть без html на конце.

Сегодня гугль просканировал все такие страницы сначала по нормальному адресу, и сразу после этого с index.html на конце - /страница/блаблабла/index.html . Взять такие URL гуглу неоткуда, входящих ссылок нет. Но по идее если сайт сделан на статике - эти URL обычно валидные, как правило в этом случае отдавется то же, что и для без index.html

Если бы на сайте была сапа, на /страница/блаблабла ссылки бы были, а с index.html нет.

Зачем гуглу это могло быть нужно, кроме палева продажных ссылок?

Раньше ничего подобного не замечал.

144

Ripro

17 ноября 2013, 13:13

#1

veille:
Есть один свежий сайт, ему ~3 недели.
На нем все линки вида /страница/блаблабла
То есть без html на конце.
Сегодня гугль просканировал все такие страницы сначала по нормальному адресу, и сразу после этого с index.html на конце - /страница/блаблабла/index.html . Взять такие URL гуглу неоткуда, входящих ссылок нет. Но по идее если сайт сделан на статике - эти URL обычно валидные, как правило в этом случае отдавется то же, что и для без index.html

Если бы на сайте была сапа, на /страница/блаблабла ссылки бы были, а с index.html нет.
Зачем гуглу это могло быть нужно, кроме палева продажных ссылок?
Раньше ничего подобного не замечал.

При чем тут сапа? Если проиндексировал - значит есть ссылки, открыты к индексации.

Если страницы доступны по двум адресам - пропишите канонические ссылки или уберите дубли.

1

V

62

veille

17 ноября 2013, 13:17

#2

Ripro:
При чем тут сапа? Если проиндексировал - значит есть ссылки, открыты к индексации.
Если страницы доступны по двум адресам - пропишите канонические ссылки или уберите дубли.

Не, ты не понял.

Страницы по двум адресам сразу не доступны, сервер отдал 404. Но если бы они были доступны (а при такой конфигурации URL они часто доступны и так и так), и если бы стояла сапа, на версии без index.html были бы ссылки, а с index.html нет. Сапа привязывает свои ссылки тупо по URL, не разбираясь есть дубли или нет.

Еще вспомнил, этот сайт я засветил на англоязычных вебмастерских форумах, как раз в разделах, где в том числе продают ссылки. Но ни одной входящей ссылки с index.html на сайт не было и нет.

Это дубли - что Страница, на которую не мнение о работе веб-студии??

144

Ripro

17 ноября 2013, 13:26

#3

veille:
Не, ты не понял.
Страницы по двум адресам сразу не доступны, сервер отдал 404. Но если бы они были доступны (а при такой конфигурации URL они часто доступны и так и так), и если бы стояла сапа, на версии без index.html были бы ссылки, а с index.html нет. Сапа привязывает свои ссылки тупо по URL, не разбираясь есть дубли или нет.

Еще вспомнил, этот сайт я засветил на англоязычных вебмастерских форумах, как раз в разделах, где в том числе продают ссылки. Но ни одной входящей ссылки с index.html на сайт не было и нет.

Говорить реально не о чем - если бы были, то были бы, если бы стояла, были бы ссылки.

Вы сайт на дубли проверяли? Если есть внутренние ссылки на страницы-дубли, этого достаточно для индексации - внешние для этого не нужны.

V

62

veille

17 ноября 2013, 13:32

#4

вот же ж

Говорю реальный факт

Дублей нет и не может быть

Ссылкам с index.html неоткуда взяться

Если гугл пытался угадать, что могут быть подобные дубликаты и просканировать их, значит ему это зачем-то нужно.

Зачем гуглюю это может быть нужно, кроме как чтобы искать отличия в контенте, которые обычно бывают из-за сапы? Вот в чем вопрос. Не "что мне делать, чтобы этого не было", а "зачем гуглю это".

Морда вылетела из-за ошибки Белые Дорвеи или Дорвееподобные Ценность инвентаря: недостаточно контента

144

Ripro

17 ноября 2013, 13:38

#5

veille:
вот же ж

Говорю реальный факт

Дублей нет и не может быть
Ссылкам с index.html неоткуда взяться

Если гугл пытался угадать, что могут быть подобные дубликаты и просканировать их, значит ему это зачем-то нужно.

Зачем гуглюю это может быть нужно, кроме как чтобы искать отличия в контенте, которые обычно бывают из-за сапы? Вот в чем вопрос. Не "что мне делать, чтобы этого не было", а "зачем гуглю это".

Т.е. у вас есть лог поведения бота гугла на сайте, где видно, что он просто "искал" адреса, которых на сайте нет?! Подобные адреса на массе сайтов - при чем тут сапа? :)

Можно урл сайта в ЛС?

ДДОСят VPS Как заблокировать ботов идущими Продаю сайт Тиц 550,

V

62

veille

17 ноября 2013, 13:46

#6

Именно.

Есть лог, где гугль искал адреса, которых нет. Причем не просто адреса, а такие адеса, которые довольно часто бывают в таких случаях, просто добавляя /index.html к URL сущестующих страниц.

Подобные адреса на массе сайтов - при чем тут сапа?

Зачем гуглю это? Зачем он пытается угадать дубликаты?

Сапа (или аналог) здесь при том, что если она есть, на одном дубликате ссылки будут, а на другом нет. А если сапы нет, ссылки или будут на обоих дубликатах или не будут также на обоих дубликатах.

Если не палево ссылок, зачем еще гуглю это может быть нужно? Для чего тратить ресурсы своих пауков? Проверять, не статика ли это, замаскированная под динамику? А смысл?

Сайт нельзя, но просто поверь на слово, что таких ссылок там быть не может. 100% самописная динамика без всяких там html, URL параметров и прочего.

Индексация сайта гуглем Каталог сайтов Нашли.com Вопрос по All In

591

september

17 ноября 2013, 13:51

#7

У меня 404 Error появляется при добавлении лишних символов. У вас что открывается та же страница? Беда значит, раз переадресация не настроена

$ карта для вывода вебмани в любой точке мира (https://www.epayments.com/registration?p=dc2462e885)

144

Ripro

17 ноября 2013, 13:51

#8

veille:
Именно.
Есть лог, где гугль искал адреса, которых нет. Причем не просто адреса, а такие адеса, которые довольно часто бывают в таких случаях, просто добавляя /index.html к URL сущестующих страниц.

Зачем гуглю это? Зачем он пытается угадать дубликаты?
Сапа (или аналог) здесь при том, что если она есть, на одном дубликате ссылки будут, а на другом нет. А если сапы нет, ссылки или будут на обоих дубликатах или не будут также на обоих дубликатах.
Если не палево ссылок, зачем еще гуглю это может быть нужно? Для чего тратить ресурсы своих пауков? Проверять, не статика ли это, замаскированная под динамику? А смысл?

Сайт нельзя, но просто поверь на слово, что таких ссылок там быть не может. 100% самописная динамика без всяких там html, URL параметров и прочего.

Паранойя какая-то честное слово. Если движок самопис - еще не значит, что там нет и не было таких ссылок. Я ни разу не видела, чтобы боты искали ссылки, которых нет :)

А уж связывать это с сапой и пытаться понять почему происходит - и вовсе лишняя трата времени, имхо.

Где можно добыть вечные Продам движок Яндекс картинки

V

62

veille

17 ноября 2013, 14:01

#9

Если движок самопис - еще не значит, что там нет и не было таких ссылок.

Я _знаю_, что таких ссылок там нет :) Я сам этот движок писал, сам натягивал темплейт, делал такое не в первый раз и абсолютно точно _знаю_, какие ссылки у меня есть, а какие нет :)

Я сейчас посмотрел весь лог сервера. В течение трех недель гугл ходил себе по правильным ссылкам как воспитанный бот, не умничая и не пытаясь гадать. А сегодня взял и резко просканировал сначала правильные ссылки, убедился что они работат, все хорошо, а потом тут же добавил к каждой из них index.html и пытался просканировать уже их, закономерно получив 404. У меня около 100 сайтов, и раньше я тоже такого не видел, хотя может просто не обращал внимания. Нахрена это гуглу - вот что мне непонятно.

Сразу предвосхищая вопрос - скан шел с IP гугла, 66.249.75.195

Странные переходы из всех Закрыть доступ к ссылка Как "отклеить" чужой сайт?

1051

Евген

17 ноября 2013, 14:02

#10

veille:
Гугль палит сапу, сканируя дубликаты?

ага. делать ему больше нечего :D

Арбитражишь? подними РОИ на 10-20% - бонусы на пополнение рекламных сетей (тм, мт, твк, твс) (https://eprofit.me/ru/partner?olymp)

Что такое Power BI и зачем это нужно бизнесу

Open AI тестирует память для ChatGPT