Граббинг контента vs поисковики

RO
На сайте с 13.07.2009
Offline
88
1050

В общем был у меня сайт на всем известном бесплатном "хостинге" (если его так можно назвать) UCOZ там висел купленый домен а не стандартный который дают при реге, но пару недель назад я решил переехать на нормальный хостинг с поддержкой php MySQL и другими привелегиями которых нет на юкозе. Но так как статей и картинок и вообще всего было очень много, после того как я перенес около 10 статей, я понял что это будет очень долго, и написал маленький грабер контента, он работает по такому принцыпу:

Пользователь В гугле переходит на страничку которая имеет адрес к примеру http://site.ru/publ/12-3-45 которой естественно нет на сайте http://site.ru но эта страничка существует на сайте http://site.ucoz.ru ... естественно сервер на котором лежит http://site.ru отдает страничку 404 вот тут и начинается самое интересное, при запросе странички 404 я ловлю запрос по средствами curl передаю этот запрос на http://site.ucoz.ru если на юкозе эта страничка существует парсю полученый результат по определенным тегам которые поставил на http://site.ucoz.ru и вывожу на экран на сайте http://site.ru.

Внимание вопрос: Как реагируют на такой грабинг поисковые боты, я знаю что они запрашывают хеадерсы странички и если она изменилась с предидущего захода то смотрят что там изменилось, но тут то и проблема, получается что они запращывают одну и ту же стараницу 404 которая на фактически не существует на http://site.ru, но для обычного человека эта страничка ничем не отличается от других, индексируются ли такие странички?

З.Ы. если кто не понял покажу пример

Оригинальная тема /ru/forum/378587 тут мне никто не дал толкового твета, точнее не ответил никто... может здесь помогут

Удивительно
На сайте с 07.07.2009
Offline
215
#1

Вроде понял

Тут лучше 301 редирект юзать, тогда ПС отнесутся нормально

Старые статьи вытягиваешь с укоза 301 редиректом, а новые уже будут находиться на новом сайте

Как-то так

Качественная семантика недорого ( https://moab.tools/ )
dvu-v
На сайте с 30.05.2008
Offline
128
#2

Вообще граббинг это плохо, и ПС его не любят.

RO
На сайте с 13.07.2009
Offline
88
#3
Тут лучше 301 редирект юзать, тогда ПС отнесутся нормально

через 301 это не вариант так как это всеголиш редирект на старый сайт будет я сначала так и делал, но тогда получилось что трафик начал падать с основного домена,

ну а если в заголовке страницы 404 боту отдаю заголовок 200 ok как бутто страница существует, он веть должен воспринимать это нормально, да и подмены незаметно тогда, может ктонить такое делал...

в общем вот конкретный вопрос: может ли бот отличить существует ли страница или нет если со всеми заголовками все в норме (тоесть 200 ок), и контент то что был на старом сайте на месте?

funky
На сайте с 15.02.2009
Offline
35
#4

200 ок - и все будет в порядке. во многих СMS так и делают, у которых ЧПУ есть

K
На сайте с 21.11.2008
Offline
5
#5

Подтверждаю. По моим наблюдениям, главное чтобы 200 отдавал. Многие движки именно через 404 работают.

LL
На сайте с 19.12.2008
Offline
39
#6
RedOK:

в общем вот конкретный вопрос: может ли бот отличить существует ли страница или нет если со всеми заголовками все в норме (тоесть 200 ок), и контент то что был на старом сайте на месте?

Однозначно не может отличить. Но может увидеть, что эта страница есть дубль старой, а поскольку склейки 301 редиректом не идет, то может посчитать неуник. контентом и под фильтры пустить.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий