veille

Рейтинг
62
Регистрация
20.06.2012
Ripro:
А домен? Нулевой или была история?
В гугл вебмастер есть ошибки 404 с такими страницами и откуда ведут на них ссылки?
Только не лепите сюда же сапу, плз, :)

---------- Добавлено 17.11.2013 в 16:33 ----------

Еще вопрос - карту сайта проверяли? Если в карте отдать случайно несуществующие адреса (встречала такие глюки и не раз), бот пойдет их проверять.

Нет карты, нулевой брендовый домен, ссылки не просто случайные, а только действительно существующие на сайте страницы, но с добавленным /index.html.

Нет гугл вебмастера (и не будет), нет входящих ссылок кроме тех, которые я сам лично оставил на нескольких англоязычных форумах.

Если движок самопис - еще не значит, что там нет и не было таких ссылок.

Я _знаю_, что таких ссылок там нет :) Я сам этот движок писал, сам натягивал темплейт, делал такое не в первый раз и абсолютно точно _знаю_, какие ссылки у меня есть, а какие нет :)

Я сейчас посмотрел весь лог сервера. В течение трех недель гугл ходил себе по правильным ссылкам как воспитанный бот, не умничая и не пытаясь гадать. А сегодня взял и резко просканировал сначала правильные ссылки, убедился что они работат, все хорошо, а потом тут же добавил к каждой из них index.html и пытался просканировать уже их, закономерно получив 404. У меня около 100 сайтов, и раньше я тоже такого не видел, хотя может просто не обращал внимания. Нахрена это гуглу - вот что мне непонятно.

Сразу предвосхищая вопрос - скан шел с IP гугла, 66.249.75.195

Именно.

Есть лог, где гугль искал адреса, которых нет. Причем не просто адреса, а такие адеса, которые довольно часто бывают в таких случаях, просто добавляя /index.html к URL сущестующих страниц.

Подобные адреса на массе сайтов - при чем тут сапа?

Зачем гуглю это? Зачем он пытается угадать дубликаты?

Сапа (или аналог) здесь при том, что если она есть, на одном дубликате ссылки будут, а на другом нет. А если сапы нет, ссылки или будут на обоих дубликатах или не будут также на обоих дубликатах.

Если не палево ссылок, зачем еще гуглю это может быть нужно? Для чего тратить ресурсы своих пауков? Проверять, не статика ли это, замаскированная под динамику? А смысл?

Сайт нельзя, но просто поверь на слово, что таких ссылок там быть не может. 100% самописная динамика без всяких там html, URL параметров и прочего.

вот же ж

Говорю реальный факт

Дублей нет и не может быть

Ссылкам с index.html неоткуда взяться

Если гугл пытался угадать, что могут быть подобные дубликаты и просканировать их, значит ему это зачем-то нужно.

Зачем гуглюю это может быть нужно, кроме как чтобы искать отличия в контенте, которые обычно бывают из-за сапы? Вот в чем вопрос. Не "что мне делать, чтобы этого не было", а "зачем гуглю это".

Ripro:
При чем тут сапа? Если проиндексировал - значит есть ссылки, открыты к индексации.
Если страницы доступны по двум адресам - пропишите канонические ссылки или уберите дубли.

Не, ты не понял.

Страницы по двум адресам сразу не доступны, сервер отдал 404. Но если бы они были доступны (а при такой конфигурации URL они часто доступны и так и так), и если бы стояла сапа, на версии без index.html были бы ссылки, а с index.html нет. Сапа привязывает свои ссылки тупо по URL, не разбираясь есть дубли или нет.

Еще вспомнил, этот сайт я засветил на англоязычных вебмастерских форумах, как раз в разделах, где в том числе продают ссылки. Но ни одной входящей ссылки с index.html на сайт не было и нет.

Вообще-то все правильно делают. Дома люди пусть делают что хотят, это их личное право и запрещать ничего не надо. А на работе работодатель (в данном случае государство) определяет что можно а что нельзя. А тут еще и очевидная никем не скрываемая слежка и датамайнинг в пользу иностранного государства.

Да и не нужен гугль в этих конторах.Для поиска есть Яндекс, который по РУ ищет даже лучше.

Всего: 56