Тяжелая работа зеркальщика...

12
a1333
На сайте с 25.06.2005
Offline
137
1288

Значит ситуация такая. Полез я тут намедни проверить проиндексированные страницы по известному адресу нашей любимой поисковой системы, ввел адрес сайта, нажал на кнопарик и увидел следующее:


Результат поиска: страниц — 35

1. ввв.сайт.ру/

2. ввв.сайт.ру/индекс.пхп

3. ...

...

В роботсе прописано так:


User-agent: *
Host: ввв.сайт.ру

Все бы было бы нормально, если бы это не влияло на позиции. Что делать: запретить к индексации индекс.пхп или корень?? :d Маразм. Я в стопоре!

Добавлено: Ждать бесполезно, как я понимаю — такая ситуация уже месяца 1.5, а то и два.

Профессиональный аудит интернет-магазинов ICQ: 366-240-630
SS
На сайте с 03.09.2004
Offline
141
#1

Не вижу ничего смешного и маразматичного.

Проблема не в Яндексе, а у Вас. Из-за криворукости Вашего программиста в базу попал индексный файл и, как следствие, пошатнул позиции. Как говорят: "Не пеняй на зеркало..."

А то, что Яндекс еще не склеил страницы - так это может еще достаточно много времени пройти. Способы избавления от индексного файла в базе - стандартны: запрет в роботсе или 301 редирект на морду.

«Клянусь своей жизнью и любовью к ней, что никогда не буду жить ради другого человека и никогда не попрошу и не заставлю другого человека жить ради меня» (с) Джон Галт
a1333
На сайте с 25.06.2005
Offline
137
#2
Seventh Son:
Не вижу ничего смешного и маразматичного.
Проблема не в Яндексе, а у Вас. Из-за криворукости Вашего программиста в базу попал индексный файл и, как следствие, пошатнул позиции. Как говорят: "Не пеняй на зеркало..."
А то, что Яндекс еще не склеил страницы - так это может еще достаточно много времени пройти. Способы избавления от индексного файла в базе - стандартны: запрет в роботсе или 301 редирект на морду.

Тогда скорее "криворукость" не программиста, а производителей cms.

Я думал Яндекс по умолчанию клеит ввв.сайт.ру/индекс с ввв.сайт.ру/. Хм... 😒

Т.е. это можно вылечить таким образом,

User-Agent: *
Host: ввв.сайт.ру
Disallow: /index.php

так?

SS
На сайте с 03.09.2004
Offline
141
#3
a1333:
Тогда скорее "криворукость" не программиста, а производителей cms.

Без разницы.

Результат один и тот же.

a1333:

User-Agent: *
Host: ввв.сайт.ру
Disallow: /index.php

Лучше так:

User-agent: *

Disallow: /index.php

User-agent: Yandex

Disallow: /index.php

Host: ввв.сайт.ру

Yaroslav_Adv
На сайте с 27.09.2005
Offline
199
#4

Seventh Son, а смысл сначала запрещать всем поисковикам индексировать index.php, а потом еще Яндексу отдельно? Host, насколько я знаю, больше и не поймет никто...

С уважением, Ярослав Деревягин Веб-агентство "Found (http://found-it.ru)"
a1333
На сайте с 25.06.2005
Offline
137
#5

Seventh Son, спасибо, попробую.

Тему можно прикрыть...

CW
На сайте с 07.09.2005
Offline
158
#6

Гмммм... С Вашего позволения свой вопрос похожий.

Есть сайт. Яндекс его видит как сайт.ру С ввв считает зеркалом.

2 вопроса: стоит ли прописывать в роботс.тхт Host: ввв.сайт.ру и не отразится ли это негативно на выдаче?Не вылетит ли главная\другие страницы пока он будет склеивать? И как стоит меняться\покупать ссылки на сайт - с ввв или без? Спасибо.

Сквозь холод тумана шагаю в пальтишке Куплю сайтов с Adsense или еще что-нибудь
SS
На сайте с 03.09.2004
Offline
141
#7
Yaroslav_Adv:
а смысл сначала запрещать всем поисковикам индексировать index.php, а потом еще Яндексу отдельно? Host, насколько я знаю, больше и не поймет никто...

Есть мнение, что если при анализе файла robots.txt робот нашел ошибку, он может его проигнорировать. Насколько это правильно и для какого робота - не знаю точно, но лучше избежать возможной проблемы. В официальном стандарте указано, что для каждого робота можно указать отдельную группу дирректив. Таким образом, в данном файле робот Яндекса прочитает специально созданную для него группу и выполнит ее требования. Остальные роботы, если не найдут разработанные специально для них блоки (по названию робота), возьмут диррективы из группы по умолчанию, то есть из "*". Таким образом Вы избавитесь от возможной проблемы неправильной трактовки роботса роботами поисковых систем, которые не знакомы с диррективой хост.

Yaroslav_Adv
На сайте с 27.09.2005
Offline
199
#8

Seventh Son, спасибо за пояснение - буду иметь ввиду :)

И
На сайте с 11.10.2004
Offline
32
#9
Seventh Son:
Disallow: /index.php

По порядку формирования роботса я с вами полностью согласен, но вот запрет индексации морды привел меня в стУпор. В приведенном примере явно указывается, что индексировать ее не надо.

Не кажется ли вам, что последовательность действий робота примерно следующая:

1. читать роботс

2. найти стартовую страницу

3. индексировать...

4. назначить стартовую в качестве корня (морды) - якобы склейка.

Не свидетельствуют ли частые жалобы на вылет морды о каких-то проблемах у Я именно в реализации п. 4?

Дряхлый кандидат (наук)
SS
На сайте с 03.09.2004
Offline
141
#10
Иваныч:

1. читать роботс
2. найти стартовую страницу
3. индексировать...
4. назначить стартовую в качестве корня (морды) - якобы склейка.

(Образно, без точностей в деталях и реализации)

1. Взять роботс, проверить его на корректность, найти блок дирректив для себя (персональный для себя, либо общий)

2. Взять файл из своего списка на индексацию, проверить, не запрещен ли он в роботсе. Если запрещен - удалить и не индекировать. Если не запрещен - посмотреть отклик. Если 200, то взять страницу и посмотреть, не запрещено ли там что-то в метах и ноиндексе. Если все Ок - взять, выбрать ссылки, занести в список на индексацию и т.п. Если 304 - пропустить. Если другой отклик (404, 301, 302, 500 и др) - решать в зависимости от имеющихся инструкций. И другие действия...

3. Проверить, не пуст ли список следующих на индексацию файлов. Если не пуст - к пункту 2, если пуст - к пункту 4.

4. Уйти с сайта.

Иваныч:
вот запрет индексации морды привел меня в стУпор. В приведенном примере явно указывается, что индексировать ее не надо

Давайте определимся с терминами: для Вас морда - это www.site.ru или www.site.ru/index.php?

Для меня в данной ситуации - первое, а второе - зеркало морды. Это две разные (с точки зрения поисковика) страницы. Одну надо убрать. Запрет в роботсе или 301 на морду - способы это сделать.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий