- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Т.к. сайт в разработке, решил закрыть от индексации все кроме главной _sex-porn-xxx.com/robots.txt
Висит уже пару месяцев. Но в индекс все равно залез всякий хлам и не пропадает http://www.google.com/search?&q=site:sex-porn-xxx.com&filter=0
3 вопроса:
1. Гугл всегда так забивает на Disallow в роботс ? Или я где то накосячил ?
2. Насколько плохо для продвижения нового сайта, что он попадает в индекс так криво, т.е без внутренней оптимизации, без нормального контента итп ?
3. Не переживать, вывесить уник контент, сделать внут. оптимизацию, ждать переиндексации и потихоньку крутить, или регнуть новый домен и делать так, чтобы первая индексация была сразу идеальной ?
Заранее благодарен за ответы! Удачи!
Нет такой директивы Allow. Возможно из за этого и игнорит весь роботс. Третья строка закрывает весь сайт (остальные строки не нужны). Но если из за второй строки гугл решил вообще не рассматривать ваш роботс, тогда будет индексить согласно тегов в страницах.
Нет такой директивы Allow.
Смешно было, ага...
http://www.google.com/support/webmasters/bin/answer.py?hl=ru&answer=156449&from=40367&rd=1
От вас не ожидал:)
Гугл понимает тег allow только для директив регулярных выражений.
Для обычного управления урлами - он не поддерживает эту директиву как и все остальные боты.
XPraptor добавил 02.06.2011 в 02:29
Плюс, даже для регулярок он НЕ гарантирует что правильно станет обрабатывать данную опцию и что ее использование может всетаки допустить попадание или не попадание в индекс желаемых урлов.
User-agent: *
Disallow: /
User-agent: MediaPartners-Google
Allow: /
http://www.google.com/support/webmasters/bin/answer.py?hl=ru&answer=156449&from=40367&rd=1
Какой такой регулярный выражений? Моя твоя не понимай.
И да. Во втором посте такой директивы совсем не существовало... Чудо.
kimberlit, вы хоть не много понимаете для чего нужен allow гуглеботу? (и читайте не урезанные урывки русского перевода, а ответы представителей гугла по вопросам роботса в оригинале).
Это не директива управления урлами в основных правилах. Она допустима только в спец-блоках и только для конкретного значения UserAgent этой ПС. Она никогда не будет обработана в UserAgent: * и и никогда не будет обработана даже в спец блоке в виде Allow: /* она совсем другие цели выполняет для ботов разных ПС. Для других ботов может исполнять также совсем иные задачи - и никогда в общих правилах - только в спец-блоках со своим синтаксисом (выдуманным самими компаниями ПС).
Повторю еще раз для одаренных - в правилах robots.txt (в спецификации) - НЕТ директивы Allow.
XPraptor добавил 02.06.2011 в 04:38
Добавлю - для эксперимента создайте роботс с Allow и протестите - и увидите что он всегда будет вам выдавать один и тот же результат - что разрешено (что бы вы там не написали вместе с allow - ничего не будет принято во внимание ввиду ошибочности записи).
А если не лень то создайте два новых одностраничника и засуньте одному такой роботс с allow и закройте что нибудь еще и создайте нормальный роботс - и посмотрите на каком сайте гугл будет игнорить все ваши записи в файле, а на каком будет следовать инструкциям.
Каждый уважающий себя вм уже должен был это сделать, чтобы знать как работает у конкретной пс роботс.
Т.к. сайт в разработке, решил закрыть от индексации все кроме главной _sex-porn-xxx.com/robots.txt
Этого будет достаточно:
Висит уже пару месяцев. Но в индекс все равно залез всякий хлам и не пропадает http://www.google.com/search?&q=site:sex-porn-xxx.com&filter=0
Дак они и не проиндексированы, сохраненнок нет, снипетов нет
kimberlit, XPraptor ваша дискуссия меня еще больше запутала.
Я выложил сайт с вот таким роботсом:
User-agent: *
Allow: /$
Disallow: /*
Не знаю регулярные это выражения, или не регулярные :) но значить они должны следующее - индексировать только главную, не индексировать все остальное
Яндекс прекрасно понимает такой роботс и выдает при проверке индексации страниц http://yandex.ru/yandsearch?serverurl=24film.ru&lr=213 одну, главную.
А вот гугл выдает http://www.google.com/search?&q=site:sex-porn-xxx.com&filter=0
Уважаемый semenov написал, что остальных страниц, как бы и нет в индексе гугла.
А зачем же он тогда выдает ссылки на них ?
Т.е ничего плохого, что в индексе показывается недоработанный и не оптимизированный сайт нет и когда я захочу его раскрыть для нормальной индексации все будет ок ?
Спасибо за ответы.
Уважаемый semenov написал, что остальных страниц, как бы и нет в индексе гугла.
А зачем же он тогда выдает ссылки на них ?
Есть ссылки на страницы - есть страницы в выдаче. Это не значит, что они проиндексированы Гуглом и ничего плохого для быдущего раскрытия сайта для индексации в этом нет.
XPraptor, специально для Вас:
User-agent: Googlebot
Disallow: /*.xls$You can use this pattern matching in combination with the Allow directive. For instance, if a ? indicates a session ID, you may want to exclude all URLs that contain them to ensure Googlebot doesn't crawl duplicate pages. But URLs that end with a ? may be the version of the page that you do want included. For this situation, you can set your robots.txt file as follows:
User-agent: *
Allow: /*?$
Disallow: /*?The Disallow: / *? directive will block any URL that includes a ? (more specifically, it will block any URL that begins with your domain name, followed by any string, followed by a question mark, followed by any string).
The Allow: /*?$ directive will allow any URL that ends in a ? (more specifically, it will allow any URL that begins with your domain name, followed by a string, followed by a ?, with no characters after the ?).
bober, вам трудно что-ли вписать в gwt строки в роботс и протестить урл и убедиться в бредовости allow? (он будет для гугла разрешать все и дальше ничего обрабатываться не будет, а по сущности - бот просто игнорит такой роботс и индексит согласно тегов в страницах).
hasugosu, нет, ваш роботс разрешает все индексить - еще раз повторю - не используется allow в общих правилах роботсов. Вам та же рекомендация - войдите в свой акк в gwt и вбейте проверку любого урла который вы думаете у вас закрыт - гугл скажет вам что он разрешен - строка 2. (но по сути это только стандартная писулька программы-обработчика, реально же, он разрешен потому, что гугл вообще не учитывает роботсы с такими ошибками - не раз отвечалось на форуме гугла людьми отвечающими за алго этого направления).
Интересная тема. Нашел тоже у себя на сайте на вордпрессе в роботс Allow. Всё никак не мог понять почему гугл индексирует страницы на сайте, хотя в роботс конкретно прописано Disallow: /page/
Удалил Allow, теперь буду наблюдать дальнейшие действия гугла. Кстати вспомнил откуда я взял этот Allow в роботс. Если я не ошибаюсь то на сайте самого вордпресса (русскоязычного) висела статья как правильно оптимизировать сайт и что прописывать в роботс. Вот оттуда я и взял этот пример. И думаю что я не один такой. 😡
Гуру, если не сложно посмотрите нет ли у меня ошибок в роботс. Сайт англоязычный. Заранее спасибо.