T.R.O.N

T.R.O.N
Рейтинг
314
Регистрация
18.05.2004
AnNik:
Для Host: site.ru

Подойдите к вопросу проще. По стандарту обработки файл robots.txt обрабатывается посточно до возникновения первой ошибки. Все боты нормально реагирую на блок

User-Agent: *

Disallow: /page1

Disallow: /page1

Disallow: /pageN

Crawl-delay: 5

Host: site.ru

просто те, кто незнают что такое host - последнюю строку не обрабатывают. Зачем городить более сложные конструкции. Пусть этим занимаются те, кому валидность дороже работоспособности.

Почему, когда обсуждаются такие проблемы, народ предпочитает создавать мифы, типа возраста домена или непота или еще чегонить в этом роде, вместо того чтобы сесть и разобраться в происходящем.

Где могут возникать проблемы с индексацией, если предположить, что сам сайт нормальный, сервер отдает код 200 и mimetype настроены правильно:

1. Проблемы на уровне программного обеспечения:

- бот яши, как и гула и рамы - это программки, вернее их "сообщество". Чтобы все индексировалось правильно и быстро, боты должны "получать" от сервера то, что они хотят видить:

1. Контент должен отдаваться как можно быстрее.

2. html должен быть если не 100% валидным, то именть минимум "ловушек" для пакрсера (закрыты все теги, которые этого требуют, правильно размещена информация в head и т.д.)

3. Коректный robots.txt

4. Убедится, что все нормально работает, если пользователь идет по сайту с выключенными куками и яваскриптом.

2. Проблемы на уровне протокола:

- очень часто возникают проблемы HTTP протокала изи "кривизны" настроек сервера, но еще чаще, из-за полной безграмотности "кропателей" сайтов, которые начитались книжек типа "пхп для чайников" и пошли что-то делать. Что стоит смотреть и проверять:

1. для яши стало критично, чтобы с ботом шел обмен именно по HTTP 1.1.

2. Правильный возврат кодов 200 и 404.

3. Коректная обработка и возврат кодов 301,302,304,305,500

3. Проблемы на сетевом уровне:

- сетевой уровень самый важный, но решается там все очень просто:

1. Правлильно настроеный первичный и вторичный DNS (записи SOA, A, NS, PTR) Кроме этого постараться понять, как часто эти сревера выполняют обновление базы. Стандатно это значение ставится 3 часа. Видел варианты до 14 суток.

2. Выбрать хостера, который размещает сервера на физических адресах.

3. постараться убедится, что хостер не меняет адреса серверов.

4. Проверить время отклика сервера из разных точек мира.

А вот когда все это проверено, начинать смотреть на индексацию.

Evildeath:
за цмски не банят

Банят. Еще как. Вернее нужно сказать более точно - за кривизну большиства цмсок.

Freestyler:
Также последнее время Яндекс стал ценить сайты на Народе.

Не путайте народовские сайты, сайты хостеров и просто поддомены обычного сайта. Все это разные вещи

St.One, по идее, яша воспримит домены как зеркала. Пропишите host в роботсе + поставьте ссылки на главный сайт и все будет ок

Pavlick:
Плюсы: привилегированная выдача в региональных поисковиках, перелинковка и взаимное усиление позиций.

миф. Никаких привелегий нет, кроме юзабельности

Pavlick:
Плюсы: оптимизируем один сайт, а не несколько, вся ссылочная масса идет на один домен.

а минусы вы не рассматриваете? А как на счет "размытия" семантического ядра?

Pavlick:
3. Субдомены.

Если сайт большой и материалы на нем представлены для многих языков, на мой взгляд, самый удобный вариант. Хотя, это больше дело вкуса.

BlizStrike:
Он смотрит на свой сайтмап и на сайтмап сайта, есть различия, и робот ползёт прямиком на новые страницы.

Нет, Вы ошибаетесь.

В вариантах ответа нет варианта - накой делался сайтмап.

Есть проект, 50К страниц. Яша все нормально индексит. При обновлении, как правило, обновленная/новая страница в индексе через 2-3 апа.

Вопрос, накой нужен еще и сайтмап. По идее, яшин робот должен тольок тормозить из-за нее, в большинстве случаев.

как-то в последнее время привык неверить в нововведения, посему на все яшины заходы возвращаю несжатый код.

Да и если прикунуть все вместе, расплата за сжатие(без кеширования) больше чем за трафик.

mastr:
если он нормальный, то почему вылетает?

1 - ошибка яшиного бота

2 - проблема с вашим сервером

3 - проблема в базе

mastr:
Может быть такое, что чувак ошибся и сайт не появиться? Что тогда делать?

может. Тогда, для начала - показать сайт

mastr:
Будут ли те же позиции у сайта после возвращения? Ну хотя бы примерно те...

это, как фишка ляжет. Ведь после возвращения сайта в индекс, нужно чтобы еще и веса внешних факторов пересчитались.

Всего: 4849