- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте, помните был скандал с Яндекс и смс от мегафона, или когда у интернет-магазинов написанных на webasyst, в выдачу попали совершённые заказы? Тогда Яша отмазывался тем, что нужно добавлять было эти страницы для запрета в robots.txt
Так вот у гугла тоже самое, только ему всё равно что запрещено в роботсе, всё в индекс, и всё открыто для всех.
Пример: сайт tumblr.com (взял его специально, так как там очень много и просто красивых фото и порно)
http://www.tumblr.com/robots.txt
Вот что у него в роботс.
Disallow: /radar
Disallow: /audio_file
Disallow: /dashboard
Disallow: /x
Disallow: /svc/account
Disallow: /dashboard/notes
Disallow: /customize
Disallow: /impixu
Disallow: /liked
Смотрим, закрыто liked
Идём в Гугл. Запрос
https://www.google.ru/#newwindow=1&q=site:tumblr.com%2Fliked
Нажимаем показать скрытые результаты и ...
Вуаля, вся закрытая инфа как на ладони.
Я что-то недопонял? Просвятите, пожалуйста. Я знал что роботы ходят по закрытым директориям, но я был уверен что в индекс они не попадают.
И как теперь закрывать то что не нужно, админку, редактор заказов, да много чего, без чего не обойтись но что не должно никоим образом быть в индексе?
Я что-то недопонял? Просвятите, пожалуйста. Я знал что роботы ходят по закрытым директориям, но я был уверен что в индекс они не попадают.
Вы действительно недопоняли. Приводите robots.txt для домена второго уровня, а в выдаче по вашей ссылке домены третьего.. там свои роботсы.
1. Robots.txt для Google - только рекомендация не индексировать.
2. Индексировать страницу и показывать её в выдаче - 2 разные вещи, иногда не связанные между собой.
Если на страницу есть внешние ссылки - Гугл всё-равно будет показывать её в выдаче, и не важно, закрыта ли она в robots.
Поскольку эта страница будет ранжироваться по "анкорному ранжированию" алгоритмом Google (хотя бы по НПС).
Ladycharm Подскажите, есть вариант, кроме физического удаления, или клоакинга (не показывать ботам google страницу или показывать но другой контент) убрать то что ненужно из выдачи?
Ladycharm Подскажите, есть вариант, кроме физического удаления, или клоакинга (не показывать ботам google страницу или показывать но другой контент) убрать то что ненужно из выдачи?
В роботсе можно запретить сканировать сайт - если он уже в индексе, то может там и остаться. Вы можете принудительно удалить нужные документа из индекса через ПВМ (они должны быть закрыты от индексации или выдавать 404, насколько помню). Либо, повесьте на них 404 ответ сервера. Либо можно показывать контент только авторизованным пользователям. :)
YaanGle
Спасибо огромное. Почему сам не додумался((
Ladycharm Подскажите, есть вариант, кроме физического удаления, или клоакинга (не показывать ботам google страницу или показывать но другой контент) убрать то что ненужно из выдачи?
Вы и правда недопонимаете.....
смотрим какие дирректории здесь закрыты http://inmeyko.tumblr.com/robots.txt
Sitemap: http://inmeyko.tumblr.com/sitemap1.xml
User-agent: *
Disallow: /private
Disallow: /random
Disallow: /day
Crawl-delay: 1
а не на основном домене, Для ПС это ДВА РАЗНЫХ САЙТА
А вот другой вариант тогда, без доменов 3-го уровня
Смотрим, закрыто /bitrix
Делаем запрос site:searchengines.ru/bitrix
Вот пожалуйста
Админка
Стили
Блин, мне за этот пример по ушам не надают?
гугл всегда ходил где хотел, пофиг ему на роботс
Я, просто не привожу свой сайт в пример. А там всё гораздо хуже. Сайт с UGC. Весь хлам я собирал в 1 категорию, из разряда, человек зашёл зарегистрировался, что-то выложил, а потом забил. Если тупо всё удалять- мало ли, человек зайдёт снова, и начнёт добавлять, он будет расстроен, если я удалю его контент. Так вот, таких пользователей больше гораздо, чем тех, кто делает всё аккуратно и регулярно. И эта категория с хламом, за годы уже очень сильно разрослась. И сейчас на неё пошли заходы из google. И заходов больше чем на нормальные категории. Соответственно увеличились отказы.
---------- Добавлено 02.04.2014 в 20:33 ----------
Так я знаю что он ходил. И по логам можно посмотреть, но чтобы он выкладывал в основной индекс, и на него шли люди, такое у меня впервые.
... Весь хлам я собирал в 1 категорию ... Если тупо всё удалять- ... человек ... будет расстроен ... И эта категория с хламом, за годы уже очень сильно разрослась. И сейчас на неё пошли заходы из google. И заходов больше чем на нормальные категории. Соответственно увеличились отказы.
Запрещайте индексацию нужных страниц мета-тегом. Это избавит от попадания оных в индекс, даже в виде "голых" url.