- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Вот, раскопал и офигел...
В гугле проиндексированы страницы вида:
сайт.ком/stat/число/page/
При этом в роботсе ясно написано, что:
User-agent: *
Disallow: page
...
И что с ним делать?
А надо было написать от корня
Disallow: /stat
Чмтаем внимательно описание поисковых стандартов для роботс.тхт, в котором сказано, что в случае:
Disallow: page
будут запрещены к индексации все страницы и директории, начинающиеся на "page"
PS:
Disallow: /stat
не катит, т.к. "stat" должен быть открыт
При єтом все другие поисковики понимают прекрасно, что страницы и каталоги, начинающиеся с "page" индексировать нельзя.
В суд на Гугль подать, что ли? :)
Уже не одна компания за менее мелкие "грехи" с Гугля денег сняла :))
Чмтаем внимательно описание поисковых стандартов для роботс.тхт, в котором сказано, что в случае:
Disallow: page
будут запрещены к индексации все страницы и директории, начинающиеся на "page"
Ключевое слово начинающиеся,
то есть чтобы закрыть то что надо придется явно перечислять все числа потому что согласно стандарту никаких регулярных выражений робот не поймет.
Disallow: /stat/0/page/
Disallow: /stat/1/page/
Disallow: /stat/2/page/
Disallow: /stat/3/page/
...
Disallow: /stat/999/page/
Если Вы хотите чтобы robots.txt был поменьше то придется переделать сами пути к документам то есть сделать типа того как ниже где после завершающей косой черты будут числа.
Disallow: /stat/page/
А еще проще добавить в те документы которые не надо индексировать META метки NOINDEX и другие из этого набора.
Ключевое слово начинающиеся,
Начинающееся НЕ ОТ КОРНЯ, если нет слеша ("/")
то есть чтобы закрыть то что надо придется явно перечислять все числа потому что согласно стандарту никаких регулярных выражений робот не поймет.
Disallow: /stat/0/page/
Disallow: /stat/1/page/
Disallow: /stat/2/page/
Disallow: /stat/3/page/
...
Disallow: /stat/999/page/
И так 13 тыс раз (на данный момент) ;)
Представляете размерчик фалика?
А еще проще добавить в те документы которые не надо индексировать META метки NOINDEX и другие из этого набора.
Я закрыл роботсом, что бы страницы не скачивалиь роботом - т.к. их ну очень много (и постоянно изменяются) - а зачем мне лишний трафик?
http://www.citforum.ru/internet/search/rbtspec.shtml
Нигде нет упоминания о том, что в строке Disallow должен быть указать путь от корня.
Начинающееся НЕ ОТ КОРНЯ, если нет слеша ("/")
Самое смешное во всем этом то что как в HTTP запросе как раз только от корня все и считается.
А при чем здесь http-запрос?
В стандарте ясно написано, что:
Disallow: page
запрещает индексировать как страницы, так и каталоги, начинающиеся с "page".
Но не урл (без имени хоста), начинающийся с "page".
http://www.robotstxt.org/wc/norobots.html
record contains lines of the form "<field>:<optionalspace><value><optionalspace>".
...
Disallow
...
This can be a full path, or a partial path; URL that starts with this value will not be retrieved.
В вашем случае адрес начинается со stat, но никак не с page.
А при чем здесь http-запрос?
Для ясности.
В стандарте ясно написано, что:
Disallow: page
запрещает индексировать как страницы, так и каталоги, начинающиеся с "page".
Но не урл (без имени хоста), начинающийся с "page".
http://www.robotstxt.org/wc/norobots.html
The value of this field specifies a partial URL that is not to be visited. This can be a full path, or a partial path; any URL that starts with this value will not be retrieved. For example, Disallow: /help disallows both /help.html and /help/index.html, whereas Disallow: /help/ would disallow /help/index.html but allow /help.html.
Обратите внимание на слово URL и косую черту в начале каждого пути.