Nicon

Рейтинг
152
Регистрация
21.11.2001
Как писал Dm
Не подскажете, надо ли открывать Яндексу картинки в robots.txt чтобы он их индексировал или и так заберет?

Сам заберет. Жди робот с индексом Р. Причем за один раз может выгрести до 10Мб графики.

Как писал Gray
Да нет. Ты, когда заходишь на форум, скрипт читает куку с твоего компа...Чтобы показать робота (а он тоже ловится скриптом), достаточно, кроме куки, читать UserAgent и сравнивать его со списком. Нагрузка ненамного выше.

Так... подошли к волнующей меня теме... Хорошо хоть разделе "для новичков":)

Предположим, точнее, наверняка, я не собираюсь заниматься клоакингом, а просто следить за посещением меня роботами. Я конечно же читал этот раздел, но это все на тему - как обмануть робота. Т.е. выявить его и подсунуть ему нужную страницу. Как ты и пишешь - скриптом отловить и сравнить со списком UserAgent. Вот вопрос: если я не собираюсь заниматься клоакингом, то зачем мне в онлайн-режиме его сравнивать со списком? Зачем нагружать сервак? Почему нельзя просто "сфотографировать" его в базочку, а затем, часиков в 12 ночи, когда меньшая нагрузка, разшинковать записи в базе по полочкам - робот туды, посетитель сюды?

И еще:


...Чтобы показать робота (а он тоже ловится скриптом), достаточно, кроме куки, читать UserAgent...

где можно взять подобный скрипт, именно тот, что читает UserAgent, для MIIS и ASP?

В данной теме (отлов заходов роботов) - я новичок :(. Поэтому мне еще непонятно - роботы ведь скрипты не отрабатывают? Или не все скрипты?

Спасибо заранее за ответ, для меня это очень важная тема.

Как писал Gray
Определять лучше всего по UserAgent. Не ставил себе целью внедрять такое опознавание в этот форум, но в принципе это сделать можно...

UserAgent - роботов? Как? ИМХО через логи в режиме "онлайн"? А сервер выдержит ? Или форум будет торзмозить нещадно, наверно😮

Как писал asef
Расслабься... таких чекеров море... Видимо кто то из редакторов обкатывал его для своих целей.

Э... не...;)

Твое мнение я конечно уважаю, но есть у меня и своя правда. Я не сказал, что подавал сайт в два раздела сразу:

Top: World: Russian: Страны и Регионы: Европа: Украина: Области: Киевская: Киев: Отдых и Спорт

и

Top: World: Russian: Страны и Регионы: Европа: Украина: Отдых и Спорт

Так вот из обеих, с интервалом в 6 минут зашли этим чекером.

Может конечно чекером море, но уж сильно хочется замечать надпись link checker, and editor for dmoz.org ;).

Хотя, с другой стороны, в этих разделах все равно нет редактора:(

Может подскажешь, где есть редактор в более высоких раздела, помоему даже у Top: World: Russian: Страны и Регионы: Европа: Украина: нет редактора.

Как писал LiM
...Приходит на сайт только по случаю подозрений на присутствие в базе Яндекса дубля страницы...

А откуда появляются подозрения? Дубля страницы на другом доменном имени? Подозрение в плагиате или в нечестной раскрутке?

И еще раз о якобы выясненных всех роботах Яндекса.

213.180.194.163 - Yandex/1.01.001+(compatible;+Win16;+H) - это кто?

Итого:

D - "быстрое" добавление и проверка

I - индексатор

M - подсветчик

Р - поиск картинок

H - ??

И это только те, у кого индефикатор Yandex. А ведь есть еще Addurl?

Надеюсь я не забиваю флеймом форум? Просто хотелось знать их всех;)

Я создаю свой счетчик, хотелось бы видеть динамику посещения роботами, разделяя их...

Первоначальное сообщение от Fad


406 означает, что ресурс не в том формате, который нужен клиенту.

В смысле? А как же все остальные роботы, в том числе и Яндекса, получают в том формате?

Первоначальное сообщение от chaif
Сегодня создал много релевалентных страниц для Рамблера. Послал их ему.
StackRambler зашел сразу же...

Эт как это? Как можно послать их ему?😮 И очень удивительно, что он сразу зашел.

Мне бы так...:(

Первоначальное сообщение от wolf


Дык недавно проект Яндекс-картинки запустили

Плавали, знаем ;). Я об этом, конечно, в первую очередь и подумал. Тем более, что P скорее всего означает Pictures. Интересный факт у меня еще получился - сервер IIS, при запросе robots.txt выдал этому роботу ответ 406. Только ему, остальным роботам нормально отвечал 200. 406 - source not acceptable (неприятный, не удовлетворительный), так да?

Что же именно случилось? Что не понравилось и кому?

User-Agent: *

Disallow: /css/

Disallow: /scripts/

Спасибо

Первоначальное сообщение от Gray

Это не скорее всего - это так и есть. Этим вопросом мы задавались очень давно. И давно же все выяснили

Да, конечно. Но там нет такого товарища: Yandex/1.01.001+(compatible;+Win16;+P). Пережрал у меня все картинки, а их у меня более 15мб😮, причем только картинки. Может этот робот на картинках только и специализируется?

Всего: 590