Reise

Рейтинг
174
Регистрация
22.06.2007
FiLiNDAV:
ИнкорМедиа(Подписки) - моментальный ребилл...
от
РМ-Инвест(Подписки) - моментальный ребилл...

А где такие настройки, недавно в ПП - не вижу...

metiska:
Смотря для какого трафа платник нужен

Варез: фильмы, игры, софт.

Кто какие платники ставит?

Народ, подскажите на каких платниках конверт на ПП лучше, да и какие цены ставить?

siv1987:
Тогда либо у вас проблемы с роботсом, либо бот посещал страницы до того как появился запрет на индексацию. Раз уже попали в индекс придется ждать. Со временем они выпадут. За "день" они точно не исчезнут. Недели две стабильно продержатся, смотря как часто бот посещает сайт.

Это не так. Гугл успешно продолжает набирать в индекс страницы вида /photo-id хотя в роботсе правило:

Disallow: /photo*

Кстати страницы вида */torrent/* исчезли с индекса. Пока что вижу, что панацея в метатеге <meta name="robots" content="noindex" />. Именно после его установки на страницы вида */torrent/* они выпали с индекса - причем за 1 день.

Попробую установить этот метатег на страницы вида /photo*. О результатах отпишу.

siv1987:
Где игнорирует?

Ну в приведенном примере не игнорирует, в моем случае игнорирует.

siv1987:
могут появится в серпе без сниппета и кэша

У меня все они и со сниппетами и с кешами. Индексируются как обычный страницы не смотря на запреты в роботсе.

Yapy:
Ну тогда вам нужно разбираться с теми нехорошими людими, которые ставят ссылки на ваш ресурс. Как вариант - попросить их смотреть сначала роботс

Нет никаких ссылок извне - есть только ссылки изнутри сайта - служебные страницы с дублями контента, которые не нужно индексировать. Только не надо сейчас говорить - не ставьте таких ссылок. К примеру раздел галерея изображений - это полезно пользователям, но с точки зрения ПС это все частичные дубли, причем в громадном количестве и их не нужно индексировать.

siv1987:
Индексируется не каталог и не файлы, индексируется урл.

Вообще-то если быть точным, индексируется документ, а урл - это всего лишь его адрес.

siv1987:
Вы отклоняетесь от первоначальной задачи.
/films/fantasy/torrent/ это тоже самое что и /films/fantasy/torrent/*

Reise, действительно, поизучайте RTFM.

Да, действительно, отклоняюсь... Но вопрос не в "изучать" - вопрос в другом - гугл игнорирует robots.txt и непонятно как с этим бороться.

siv1987:
ТС, зачем отличать? Стандарт роботс-а читали? /films/fantasy/torrent/ по умолчанию запрещает все его содержимое включая файлы.

Вы правы, но лишь отчасти.

Если припустить что /films/fantasy/torrent/ физический каталог на диске, в котором находятся файлы, то да - его закрывать нету смысла, так как индексируется не каталог, а файлы.

Но есть одно НО: в современной тенденции правил реврайтов для веб-серверов /films/fantasy/torrent/ - это может быть не классический каталог (физически его нет, он формируется виртуально движком сайта), а раздел сайта, который показывается как отдельная страница, то есть является документом. Поэтому может иметь место необходимость закрыть от индексации именно этот документ, не закрывая остальные, путь которых начинается так же.

Тем не менее вопрос остается открытым. Я пока заинтересовался метатегом: <meta name="robots" content="noindex" />. Попробую его заюзать - посмотрим что это даст.

Yapy:
Индексируются новые страницы с уже новыми правилами роботс.тхт?

Да, именно так.

Yapy:
Вообще-то, это неправда. Google о robots.txt

Ну вообще-то, даже там

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL-адреса, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.

Так что все правда - индексируются, и гугл это не отрицает.

Другой вопрос как с этим бороться...

Yapy:
Покажите на всякий случай ваш роботс

Сейчас такой:

User-agent: Yandex
Disallow: /user/
Disallow: /engine/
Disallow: /click/
Disallow: /click2/
Disallow: /reklama.html
Disallow: /engine/go.php
Disallow: /favorites/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /uploads/
Disallow: /backup/
Disallow: /tags/
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /user/
Disallow: /*action=mobile$
Disallow: /do=*
Disallow: /index.php?subaction=newposts
Disallow: /?do=lastcomments
Disallow: /bc/
Disallow: /load/
Disallow: /sp/
Disallow: /qc/
Disallow: /photo*
Disallow: /torrent.php*
Disallow: /*/torrent/*
Sitemap: http://site.ru/sitemap.xml
Host: site.ru

User-agent: Googlebot
Disallow: /user/
Disallow: /engine/
Disallow: /click/
Disallow: /click2/
Disallow: /reklama.html
Disallow: /engine/go.php
Disallow: /favorites/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /uploads/
Disallow: /backup/
Disallow: /tags/
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /user/
Disallow: /*action=mobile$
Disallow: /do=*
Disallow: /index.php?subaction=newposts
Disallow: /?do=lastcomments
Disallow: /bc/
Disallow: /load/
Disallow: /sp/
Disallow: /qc/
Disallow: /photo*
Disallow: /torrent.php*
Disallow: /*/torrent/*
Sitemap: http://site.ru/sitemap.xml

User-agent: *
Disallow: /user/
Disallow: /engine/
Disallow: /click/
Disallow: /click2/
Disallow: /reklama.html
Disallow: /engine/go.php
Disallow: /favorites/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /uploads/
Disallow: /backup/
Disallow: /tags/
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /user/
Disallow: /*action=mobile$
Disallow: /do=*
Disallow: /index.php?subaction=newposts
Disallow: /?do=lastcomments
Disallow: /bc/
Disallow: /load/
Disallow: /sp/
Disallow: /qc/
Disallow: /photo*
Disallow: /torrent.php*
Disallow: /*/torrent/*
Sitemap: http://site.ru/sitemap.xml



---------- Добавлено 01.02.2012 в 22:50 ----------

Liberus:
Disallow: /films/fantasy/torrent/*

естественно не подходит, потому что

kimberlit:
Ну-ну, а если категорий 100500?
kimberlit:
И звёздочка зачем?

ну вообще-то как всегда - любые символы, не разве?

Если ее не надо (не знаю даже кто такое придумал :)), то как отличить скажем /films/fantasy/torrent/ от /films/fantasy/torrent/123-avatar.html?

TextTeam:
Reise, вы можете написать пример своего роботса в http://webmaster.yandex.ru/robots.xml, дальше (в следующем окне) добавить урл, который хотите проверить и узнаете, будет он индексироваться или нет.

Самое смешное, что по яндексу выдается , что запрещен:

запрещен правилом /*/torrent/*

, при этом правило то без звездочки в конце, то есть: Disallow: /*/torrent/

По гуглу повторюсь - страницы уже полезли в индекс. Добавлю я пока звездочку в конец.

---------- Добавлено 01.02.2012 в 18:21 ----------

И все таки выяснил что гугл игнорирует правила robots.txt. На сайте есть урл-ы вида

/photo-id

в robots.txt стоит правило:

Disallow: /photo*

И при этом данные страницы прекрасно индексируются.

Что делать?

Правило Disallow: /*/torrent/ таки не работает. Страницы типа /films/fantasy/torrent/123-avatar.html полезли в индекс гугла.

Всего: 1587