- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть более понятный пример.
Лавка регистрирует два домена: фирма.ру и фирма.ком и желает что бы главным был второй. Яндекс же по умолчанию выбирает первый.
Так уже лучше :)
melkov, iseg, вы бы роботу имя присвоили, а то
lwp-trivial как-то не солидно :)
AiK, lwp-trivial - это Вы о чем?
В исходниках Яндекса такой строчки вроде нет... :)
Кстати, на данный момент уже есть кое-какая статистика:
1 пользователь правильно понял текст про "Host:" в webmaster2.html
0 пользователей - неправильно.
:)
C glagol.yandex.ru ходит за robots.txt зверь с упомянутым названием.
Подсказать откуда взялось это название? :)
AiK, кажется, понятно.
Не обращайте внимания :)
Я до конца не понял как должна интерпретироваться эта директива
То ли она указывает какой из алиасов главный (что в этом случае делать роботу, если по его данным некоторые сайты на этом айпи это не алиасы, а разные по содержанию сайты?), то ли что все остальные хосты это алиасы (и робот обязан считать что это так, независимо от имеющегося у него собственного мнения на этот счет), то ли что все остальные хосты на этом айпи не надо индексировать (то есть алиасы строго говоря вообще ни при чем и теоретически ничто не мешает запретить этой директивой к индексации разные сайты на одном айпи -хоть это и нелогично делать таким способом)
misha, как я понял, эта директива должна указать роботу, что из имеющихся трех зеркал одно - главное. Что, во-первых, означает, что всю работу по распознанию зеркал робот должен сделать сам, а, во-вторых, это уже директива не роботу, а модулю, который обрабатывает базу.
misha: > Я до конца не понял как должна интерпретироваться эта директива
Gray: > misha, как я понял, эта директива должна указать роботу, что из имеющихся трех зеркал одно - главное.
Это не совсем так. Точнее, это должно быть следствием формального действия 'Host': запрещение индексации сайта в случае, если 'Host' имеется в robots.txt, но этот сайт там не упомянут. Не важно, зеркало или нет, разный IP или одинаковый. Т.е. Host воспринимается формально, без обязательной привязки к вопросу о зеркалах.
Во время парсирования robots.txt надо знать ровно 1 дополнительный параметр: имя хоста с номером порта. Сейчас Host может располагаться там же (и только там), где и Disallow (может быть, это, конечно, и не совсем правильно).
Для каждой корректной директивы Host в каждой записи сравниваем ее параметр с нашим хостом/портом:
А в конце записи, если (badhost && !goodhost), просто добавляем Disallow: /.
В том, что написано на webmaster2.html, упоминания про более чем одну директиву Host были аккуратно вырезаны, но в плане реализации это было бы слишком серьезным ограничением.
Запрет индексации не позволяет обманывать поисковую систему в случае, если вдруг будет решено склеивать индекс цитирования, например, без проверки на фактическую зеркальность, основываясь только на директиве 'host'.
Ну а в случае явной проверки на зеркала Host - это просто предложение проверить зеркальность. Опять же, IP, альясы и пр. тут ни при чем. Если кто-то держит два идентичных сайта на boom.ru и narod.ru, у него вполне может быть одинаковый robots.txt с директивой Host.
Спасибо, теперь понятно :)
Поиск по w3.org. Интересные ссылки.
Robots - may 1996
http://www.w3.org/Search/9605-Indexing-Workshop/Papers/Frumkin@Excite.html :)
- список того, чего не хватало в robots.txt
Robots - june 1996
http://www.kollar.com/robots.html (в конце документа)
<META NAME="URL" CONTENT="absolute url">
На этом все и закончилось, фактически, в 1996 году.