- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Типа нужно запретить к индексации все страницы которые есть после ?
Вот такие Disallow: /?attachment_id=
и такие Disallow: /*?q=*
Страниц море, параметров тоже...
Что касается параметров:
Для яндекса - Директива Clean-param
Для гугла - Параметры URL
Ну и Disallow: /*?
Типа нужно запретить к индексации все страницы которые есть после ?
Вот такие Disallow: /?attachment_id=
и такие Disallow: /*?q=*
Страниц море, параметров тоже...
запретить (чтобы и в разделах тоже):
Disallow: */?
проверьте потом, чтобы чего лишнего не закрыть:
http://webmaster.yandex.ru/robots.xml
либо использовать клин-парам и/или каноникал
Залейте Disallow: /*? и проверьте, не запретилось ли чего лишнего.
Спасибо ) вопрос решен :) ( чего то протупил блин, аж стыдно :D )
Ну и Disallow: /*?
Или Disallow: *?
Но решение нельзя назвать универсальным. И хелп Гугля это напоминает... нормально ищется закрытое.
Пример http://company.yandex.ru////robots.txt?☺
Disallow: /? # но гуглится... без кэша.
А сервак согласен на индексацию с несколькими слешами ///?параметр=мат
И роботс не запрещает http://company.yandex.ru/press_releases/?брехня☠
Или Disallow: *?
Но решение нельзя назвать универсальным. И хелп Гугля это напоминает... нормально ищется закрытое.
Пример http://company.yandex.ru////robots.txt?☺
Disallow: /? # но гуглится... без кэша.
А сервак согласен на индексацию с несколькими слешами ///?параметр=мат
И роботс не запрещает http://company.yandex.ru/press_releases/?брехня☠
Robots.txt запрещает доступ к урл, но не запрещает хранение в индексе, уже попавшей туда информации. Для удаления из индекса нужно либо менять ответ сервера либо использовать панель вебмастера.
При этом, ПС могут хранить в индексе сам url, а в качестве текста используются внешние ссылки (мб еще что) - это касательно примера без кэша :)
Поэтому у меня вопрос - а нет ли примера, когда таким же образом запрещенный урл ищется в поиске, но при этом еще и отдает 404 ответ? Ведь, если робот чекает на 200 ответ запрещенный урл, то формально он нарушает директиву Disallow ? 😕
Чтобы из гугла удалить страницы нужно добавлять meta noindex в код.
(но при этом страницы должны быть доступны для индексации, иначе робот не сможет прочитать запрещающий код)
Чтобы еще вес сохранить ссылок я ошибочные урлы склеиваю через rel cannonical с корректными.
---------- Добавлено 21.05.2014 в 19:01 ----------
богоносец, это редкие случаи, которые почти не встречаются в реальной практике. Всегда можно обмануть любой движок - какие-нибудь параметры придумать которые будут отдавать 200. Но мало кому это надо.
Всегда можно обмануть любой движок - какие-нибудь параметры придумать которые будут отдавать 200.
Какие еще? кроме ? и //
Какие еще? кроме ? и //
Ну как же, &
Да и запятые я видел в разделителях параметров.
Смотря какой двиг на сайте, косяки есть в каждом.
Ну как же, &
Да и запятые
Ну этому 404 отдается, а такие которым отдается 200?