Вопрос по ререносу домена с конструктора UCOZ на хостинг, и грабинга контента.

RO
На сайте с 13.07.2009
Offline
88
356

В общем был у меня сайт на всем известном бесплатном "хостинге" (если его так можно назвать) UCOZ там висел купленый домен а не стандартный который дают при реге, но пару недель назад я решил переехать на нормальный хостинг с поддержкой php MySQL и другими привелегиями которых нет на юкозе. Но так как статей и картинок и вообще всего было очень много, после того как я перенес около 10 статей, я понял что это будет очень долго, и написал маленький грабер контента, он работает по такому принцыпу:

Пользователь В гугле переходит на страничку которая имеет адрес к примеру http://site.ru/publ/12-3-45 которой естественно нет на сайте http://site.ru но эта страничка существует на сайте http://site.ucoz.ru ... естественно сервер на котором лежит http://site.ru отдает страничку 404 вот тут и начинается самое интересное, при запросе странички 404 я ловлю запрос по средствами curl передаю этот запрос на http://site.ucoz.ru если на юкозе эта страничка существует парсю полученый результат по определенным тегам которые поставил на http://site.ucoz.ru и вывожу на экран на сайте http://site.ru.

Внимание вопрос: Как реагируют на такой грабинг поисковые боты, я знаю что они запрашывают хеадерсы странички и если она изменилась с предидущего захода то смотрят что там изменилось, но тут то и проблема, получается что они запращывают одну и ту же стараницу 404 которая на фактически не существует на http://site.ru, но для обычного человека эта страничка ничем не отличается от других, индексируются ли такие странички?

З.Ы. если кто не понял покажу пример ;)

RedOK добавил 20.07.2009 в 15:31

видимо с таким есче никто не сталкивался...

в общем вот пример:

сайт http://dizajio.kiev.ua

старый сайт на юкозе http://dizajio.at.ua

страничка существует тут http://dizajio.at.ua/news/2008-12-16-105

граблю сюда http://dizajio.kiev.ua/news/2008-12-16-105

причем на сайте http://dizajio.kiev.ua такой странички не должно быть в принцыпе, даже папки такой news нет

но вместо стандартной 404 получается вполне нормальая страничка))

может так станет понятно...

RedOK добавил 20.07.2009 в 16:22

мда.. спаса тем кто хоть прочитал эту тему с умным видом, уже и сам разобрался

ответ на мой вопрос HTTP/1.1 404 Not Found :gm:

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий