- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Подскажите, как с помощью файла robots.txt сделать так, что бы:
для одной части поисовых систем (2-3) сайт полностью закрыть?
для другой части (1-2, и далее больше) сайт открыть?
Я не понимаю последовательности записей в robots.txt. Меня интересует сколько должно быть строчек UserAgent, как перечислять поисковики, и т.д, поэтому лучше напиши мне пример, где Яндексу разрешено все, Рамблеру запрещено все, а остальным системам тоже запрещено ВСЕ.
Моя цель постепенно открыть для индексации сайт разным поисковикам. Начну с Апорта, потом другие наши, Рамблер в конце и т.д. Мне необходимо посмотреть как это все будет индексироваться (тренироваться буду, как вы понимаете, на Апорте).
Спасибо.
User-agent: Yandex
Host: ввв.название.домена
User-agent: StackRambler
Disallow: /
User-agent: msnbot
Disallow: /
User-agent: Googlebot
Disallow: /
и так далее закрываешь - что не нужно, открываешь - что нужно
непонятны цели этого эксперимента.
спасибо,
цели - сложная структура сайта с кучей внутренних ссылок туда-сюда на пока не очень понятном мне движке, много страниц, и боюсь, что-нибудь упустить. Часть сайта закрываю от роботок (всякие комментарии т.д.), хочу посмотреть как это будет все проиндексирована.
Обычно у меня всегда в поиск попадают (даже на простом html-сайте) всякие гадости вроде форм, pdf и т.д. А знаете, как потом их оттуда (из Рамблера, например) сложно обратно РАЗиднексировать. И вот висит вместо морды на нужному ключивику не та страница, однажды висела с предложением по кнопкам. -))) та стока много раз ключик встречался... вот и вылезла. зазаря.
А как закрыть ДЛЯ всех остальных (которые не вошли в наш список известных)? Ведь роботов около 50 штук.
А как закрыть ДЛЯ всех остальных (которые не вошли в наш список известных)? Ведь роботов около 50 штук.
Тогда Вам сюда, почитайте документацию: http://www.robotstxt.org/wc/norobots.html
Возможно, кто-нибудь подскажет, т.е. нигде в источниках по robots.txt, я так и не сумел этого найти.
Мне надо запретить пусть:
/node/34/print,
но оставить путь node/64
Я так понимаю, что написать:
Disallow: *print
будет некорректным.
Как же тогда запретить адреса, ЗАКАНЧИВАЮЩИЕСЯ на что-либо, остальное по маске.
Средствами роботс.тхт маску вида
Disallow: /some_mask/print
настроить по-моему нельзя.
Можно просто перечислить все возможные урла такого вида (заставить скрипт по шаблону наклепать кучу строчек запрета и записать в файл), но файл роботс.тхт может разростись до огромных размеров. Способ два - на print страничках просто прописать noindex в мете. Должно сработать для определенных поисковиков.
А как закрыть ДЛЯ всех остальных (которые не вошли в наш список известных)? Ведь роботов около 50 штук.
Если у робота нет отдельной секции в robots.txt, то он должен выполнять директивы общей секции, т.е. начинающейся директивой
User-agent: *
User-agent: Yandex
Host: ввв.название.домена
User-agent: StackRambler
Disallow: /
так то оно так...
только вот у меня уже с неделю лежит вот такой robots
заявку на удаление сайта аналогично - неделю назад добавил...
***
User-Agent: StackRambler
Disallow: /
User-Agent: *
Disallow: /bin/
***
дня три назад добавил:
***
User-Agent: StackRambler/2.0
Disallow: /
***
а рамблеру походу глубоко наплевать...
сегодня захожу на рамблер и умиляюсь :) --> Обновлено: 19.01.2006 07:26 мск
как проверить рамблер на robots?
типа Яндекса?
http://www.yandex.ru/cgi-bin/test-robots?host=
imho
надо колдовать с .htaccess
К сожалению, недавно был поставлен (чисто случайно) такой эксперимент. На крупном сайте (4000 в день с поисковиков) нормальный robot.txt был случайно заменен на
User-agent: *
Disallow: /
и заметили это через две недели.
Результат "эксперимента":
Яндекс выкинул из базы через день.
Трафик с других поисковиков (Гугль, Рамблер, Апорт, Нигма, msn, Мейл) не сократился вообще.
Результат "эксперимента":
Яндекс выкинул из базы через день.
Трафик с других поисковиков (Гугль, Рамблер, Апорт, Нигма, msn, Мейл) не сократился вообще.
факт
только у меня чуть по другому
я перелопачивал сайт начисто
ну и по дремучести своей аналогично запретил роботам работать...
Яндекс тут же меня выщелкнул
остальным по барабану
:)
а рамблеру походу глубоко наплевать...
сегодня захожу на рамблер и умиляюсь :) --> Обновлено: 19.01.2006 07:26 мск
к слову сказать
логи посмотрел
простукивалка приходит - robots стукнет и уходит :)