- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Влад, а Вы умеете извлекать метатеги не закачивая страницу? :)
Влад, а Вы умеете извлекать метатеги не закачивая страницу? :)
Ну что ж. Придется рассказывать медленно и два раза :-).
Робот скачивает страницу, потом индексатор ее обрабатывает. В некоторых ситуациях индексатор роботу сообщает: "эту страницу больше не скачивать в течение Х суток" (например, когда на хосте уже есть N страниц. эквивалентных данной). В случае обсуждаемой сейчас <META ...> это сообщение не генерируется и робот будет через некоторое время проверять страницу заново. Поэтому в отчетах о приходе роботов страница будет фигурировать всегда.
Влад, это я к тому, что bk_man назвал робот Рамблера "беднягой" просто неподумав, каким образом робот может узнать о наличии/отсутствии этого метатэга не скачивая страницу, и какой вой в рунете поднимется, если робот Рамблера будет скачивать подобные страницы ровно один раз :).
Но раз "пошла такая пьянка", то не могли бы Вы удовлетворить моё любопытство, ответив на вопрос: как часто робот Рамблера заглядывает в robots.txt? Многие (импортные в основном) роботы один раз туда заглянут, а потом скачивают страницы пачками. И потом менять robots.txt бесполезно - даже возврат 404/403 не спасает - роботы тупо продолжают молотить вилами по воде, пытаясь куда-то приплыть и изрядно пачкая логи, - пока список URL не пройдут (да и не по одному разу!) в robots.txt больше не заглядывают :(
Это какие например??? Гугльботы (оба), Скутер, Фаст, Сларп, Аск Дживс - каждый день у меня берут этот файл, пока занимаются индексированием.
как часто робот Рамблера заглядывает в robots.txt? Многие (импортные в основном) роботы один раз туда заглянут, а потом скачивают страницы пачками. И потом менять robots.txt бесполезно - даже возврат 404/403 не спасает - роботы тупо продолжают молотить вилами по воде, пытаясь куда-то приплыть и изрядно пачкая логи, - пока список URL не пройдут (да и не по одному разу!) в robots.txt больше не заглядывают :(
Сейчас это работает так: по выходным (в ночь с субботы на воскресенье) запускается специальный робот, который качает только robots.txt со всех машин. После скачивания он прочищает все наши списки URL по этим "свеженьким" robots.txt. Результат - список URL на удаление - отдается дальше по цепочке и в следующей сборке поисковой базы этих URL уже быть не должно. Таким образом, web-мастера могут чистить списки раз в неделю. Через некоторое время мы для части серверов этот интервал сократим вдвое.
Теперь пару нюансов.
1) Если проверятор robots.txt не смог достучаться до сервера, то следующие 6 дней он к этому серверу за страницами не обращается. При этом каждый день робот повторяет проверку, ожил сервер или все еще мертв. Если хост мертв 6 дней, то он из базы удаляется.
2) В некоторых режимах robots.txt читается чаще, перед каждым запуском робота. Но эти внеплановые чтения не обязательно приводят к прочистке всего списка URL.