Комментарии - Timen - Профиль вебмастера - Форум об интернет-маркетинге

Mod Rewrite и robots.txt

9 мая 2007, 13:22

Заглянул:

Все ли будет в порядке, если в robots.txt прописать следующее:
User-agent: *
Disallow: /директория/страница.html

Т.е. если закрыть от индексации все ненужные страницы-дубли (в самом движке в основном все пути вида страница.htm, но пути вида /директория/страница.html тоже встречаются) все ли будет нормально?

Сложно излагаете...

Если Вы хотите закрыть все страницы, адреса которых начинаются с префиксов /директория/страница.html, тогда все будет в порядке.

Вот ссылка на сервис от Яндекса для проверки robots.txt : http://www.yandex.ru/cgi-bin/test-robots?host=

Помогите решить проблему

9 мая 2007, 09:04

Jefa:
добавится навигация и посетитель сможет попасть с принт версии на главную. соответственно, у вас структура сложная - потому и навигацию будет сделать сложнее.

Простой вопрос: Вам было бы приятно попасть с ПС на страницу версии для печати, а не на полную страницу сайта?

Сделать ссылку с версии для печати на главную или на раздел сайта не составит труда, но это не решит сути вопроса.

Можно отметить, что страницы версии для печати иногда более релевантные запросам, так как они содержать преимущественно текстовую информацию без навигации и прочих дополнительных блоков. Но это далеко не повод не запрещать (разрешать) их к индексации.

Помогите решить проблему

9 мая 2007, 08:47

Taraskas:
Сделал все, как написали, но теперь вижу падение количества проиндексированых страниц. Причем существенное. Сначала был подъем с 18700 до 19800, а теперь упало до 16200.

Скорее всего, из индекса удалены страницы старой, ранее проиндексированной, версии для печати... Соответственно и количество проиндексированных страниц уменьшилось.

Песочница?

9 мая 2007, 08:38

ValetRammstein:
Значит ли отсутствие ссылок на сайт от Гугл при достаточном количестве от яндекс - песочница сайта. Сайт молодой.

Нет, не значит. Гугл не показывает все известные ему ссылки на сайт.

Песочница

Внешние признаки того, что на сайт попал в Sandbox следующие: молодой сайт проиндексирован Google и находится в кэше, однако не выдается в результатах поиска по характерным запросам с высокой и средней конкуренцией, по которым должен был бы находиться.

Источник: WikipediaSEO, SandBox (с поправками)

Заработок на сайте с укр. наполнением! как? нужен Ваш совет.

8 мая 2007, 19:53

PetroviCH:
указать при регистрации русский. Он должен принять. У меня принял без проблем.

А явный запрет в правилах для Вас не помеха:

Следует иметь в виду, что размещение рекламного кода AdSense на страницах, основной язык которых не поддерживается, запрещено правилами программы AdSense.

https://www.google.com/adsense/support/bin/answer.py?answer=9727&topic=140

robots.txt + javascript (redirect)

8 мая 2007, 14:50

Lys:
Как я понимаю, бот Яндекса прежде всего ищет файл robots.txt
Находит (лучше бы не находил...) - его отфутболивает на главную. Робот грязно ругается - и уходит... Я правильно понимаю ситуацию?

А почему не спросить у самого Яндекса, как он видит файл robots.txt: http://www.yandex.ru/cgi-bin/test-robots?host=

Одинаковый контент на сайтах

8 мая 2007, 14:38

Rot pfeffer:
Если есть к примеру 100 каталогов, которые используют одинаковую базу сайтов, т е весь контент этих сайтов одинакова. Разный только дизайн. По каким параметрам будет происходить выдача в яндексе?

Скорее всего, за очень короткое время, в выдаче останется только один сайт (Яндекс их просто поклеит)...

noindex i yandex

8 мая 2007, 13:31

FreeMarket:
Вроде говорили что Яндекс не понимает noindex

Взято из Яндекс FAQ (бывает очень не лишним его почитать): http://webmaster.yandex.ru/faq.xml?id=502464#noindex

Может ли робот не индексировать заданные (служебные) участки текста?

Робот Яндекса поддерживает тег noindex, который позволяет решить эту проблему. В начале служебного фрагмента поставьте <noindex>, а в конце — </noindex>, и Яндекс не будет индексировать данный участок текста.

PS: А вот Гуглом конструкция <noindex></noindex> не поддерживается.

Караул! Боты сожрали 90 гигов трафика

7 мая 2007, 08:41

idweb:
т.е. поставить везде NOFOLLOW и вручную ему скармливать ссылки через карту сайта.

<a href="" rel="NOFOLLOW"> Яндексом не обрабатывается (эта конструкция, прежде всего для Google). А в данном случае именно боты Яндекс наиболее активные.

Кроме того, я ведь написал в первом посте о правильной обработке If-Modified-Since. Это может быть хорошим решением Вашего вопроса.

Сайт не индексируется...

6 мая 2007, 14:45

OVI:
Возникла такая проблема - сайт не индексируется ни одним из поисковиков.
Проиндексирована только первая страница.
Спрашивал об этом программиста, который ваял систему - не знает.

Внутренние страницы возвращают HTTP/1.1 404 Not Found, что означает: страница не найдена. Думаю, что в этом и заключается проблема.

Решение: спросить у программиста, знает ли он, что такое заголовки… проблема не в хостинге а в программисте или в непонимании им азов работы сайтов.

Обязательно исправить ответ сервера для существующих страниц на HTTP/1.1 200 OK

Google: E-E-A-T не является фактором ранжирования

Что такое Power BI и зачем это нужно бизнесу

Timen