Комментарии - Recoil - Профиль вебмастера - Форум об интернет-маркетинге

14 августа 2006, 10:53

AVV:
Способ один и тот же для всех роботов:

.htaccess в корне site.ru

RewriteEngine on
RewriteCond %{HTTP_HOST} ^site\.ru$
RewriteRule (.+) http://www.site.ru/$1 [R=301,L]

Спасибо, AVV! Можно еще вопросы :)

1) Как я понял, этот код перебрасывает любого юзера (робота, браузера) с сайта site.ru на сайт www.site.ru ? И, таким образом, Гугл будет видеть только УРЛы с www, и со временем сочтет www.site.ru за главный и единственный. Правильно ли я все понимаю?

2) Так как на данный момент Гугл видит 500 страниц без www, и только 10 страниц с www, то не приведет ли применение вышеописанного кода к игнорированию имеющихся 500 страниц? Не пропаду ли я из поиска?

3) Как скоро Гугл может внять вышеописанному коду, и склеить сайты в один?

4) Правильно ли я считаю, что сейчас Гугл рассчитывает PageRank моего сайта отдельно для www.site.ru и отдельно для site.ru. А после склейки будет один общий ПР, который может даже возрасти на 1-2 пункта?

5) Если сейчас Яндекс считает главным www.site.ru, то введение вышеупомянутого кода в .htaccess никак не поменяет ситуацию с ним?

6) Мне встретился еще такой пример на эту же тему:

RewriteEngine on

RewriteBase /

RewriteCond %{HTTP_HOST} ^site.ru$

RewriteRule ^(.*)$ http://www.site.ru/$1 [NC,R=301,L]

Тут немного отличается от написанного AVV. В последней строчке * вместо + и буквы NC. Также еще строка RewriteBase /

Какой вариант лучше поставить?

Как узнать склеен ли сайт Гуглом?

14 августа 2006, 08:08

svift:
можно посмотреть что Google показывает по запросу site:domenA.ru и по запросу site:domenB.ru и сравнить... тогда и будет ясно, склеены домены или нет...

Я посмотрел, как вы говорили. Сайт без www показывает 500 страниц, а с www - только 10! Какие шаги можно предпринять, чтобы заставить Гугл склеить сайты?

Какие юзер-агенты программ-качалок вам известны?

13 августа 2006, 18:06

О, спасибо, gambling!

Многих из твоего списка узнал в своих логах. А откуда ты взял этот список, если не секрет?

Какие юзер-агенты программ-качалок вам известны?

13 августа 2006, 14:22

SerK:
Ага, у меня в FlashGet по умолчанию стоит IE5.x.
Так что по юзер-агенту не вариант юзать защиту от скачивания.
Не разбираюсь я в тонкостях, но юзайте что-то типа JS.

Да, я знаю, что они теперь шифруются. Но многих еще можно поймать и по юзер-агенту. У меня несколько раз за неделю ловятся.

А яву-скрипт они тоже сейчас парсят и ходят по ее ссылкам.

Вроде, неплохая идея есть здесь - http://php.spb.ru/other/_dima_noflood.php Но, по ходу, применение этого скрипта сдерживается тем, что он будет блокировать не только роботов-качалок, но и полезных ботов, типа всяких яндексов/гуглов, если они вдруг решат съесть у тебя за раз сотню/другую/третью страниц. Видимо, наилучшим решением будет дополнить вышеупомянутый скрипт проверкой по юзер-агентам ботов яндекса и т.п. и уже на основании этой информации принимать решение.

А у кого еще какие мысли есть по данной проблеме? А то меня фотогалерея уникальных фотографий, вот и приходится бороться.

Вопрос про роботов

12 августа 2006, 17:23

6666:
Кристина, сервер сохраняет логи посещений. Есть множество лог - анализаторов. Я пользуюсь вебалайзером, но может, Вам подскажут что получше.

А где и как установить этот Вебалайзер? У меня на хосте есть папка logs, в ней с десяток каких-то файлов, с расширением *.log, *.gz, но как их использовать, не знаю.

robots.txt, который ничего не запрещает.

11 августа 2006, 17:02

ой, а что-то не видно первого кода. Пустое поле.

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Recoil