Artisan

Artisan
Рейтинг
377
Регистрация
04.03.2005
Пишу программы для вычислительных машин, от драйверов устройств, до сложных систем для работы с большим количеством знаний. Умею бережно использовать железо, и другие ресурсы.
Lesni4ok:
Для того, чтобы узнать с какого ресурса (я так понял вы имеете ввиду ДНС имя) пришел бот, он должен это либо сам сказать (хотя бы косвенно, например в юзерагенте что это YandexBot) либо нужно сделать обратный резолвинг IP адресу, с которого пришел этот самый бот.

Вы совсем не поняли задачу.

greenwood:
значит такой вариант не отрицается,
как то что бот все таки ходит по ссылкам,

Бот не ходит по линкам а помещает адреса в очередь для обхода, очередь после этого может меняться как угодно хозяину системы, потом бот выбирает адреса из этой очереди, что для первого нахождения адреса может помочь угадать где его нашли.

greenwood:
сайт весь проиндексирован - дальше какой порядок обхода ?
По графику или по логическому варианту ?

Как хозяин бота захочет так и будет.

greenwood:
исходим из того что должна

Попробуйте ответить зачем это надо хозяину робота.

А если для индексации нужен порог в десяток линков?

Если бот мог узнать про сайт только из одного источника то задача уже решена, в общем случае задача не имеет смысла потому что очередь на индексацию не должна сохранять порядок источников, а упорядочивается например по нагрузке на каналы для оптимизации их использования. Кстати некоторые боты передают реф, но обычно это адрес корневого документа того сайта который индексируется, чтобы обойти отказ сайта отдавать документы без рефа.

Зерно истины в предложении есть не только для защиты от бана но чтобы не спамили, другие поисковые системы сделали NOFOLLOW как раз для этого но криво, яндексоиды советуют применять NOINDEX что тоже очень криво, было бы полезно сделать это в robots.txt но ТС уже спалил тему, ...

User-Agent: Yandex

Nepot: /

Хорошие доски принимают объявления только от людей.

Для тех кто не понял почему я написал что wikipedia благотворительная организация, если они начнут зарабатывать то потеряют этот статус, а вместе с ним возможность легально даром использовать чужой контент, то есть сайта в том смысле как есть просто не будет, спонсируют этот сайт крупные организации которые там проталкивают свою пропаганду, за что в некоторых странах еще и вычеты из налогов получаются, прочитайте внимательно в каких и убедитесь что большинство здесь чужие на этом празднике.

Nikolai Popkov:
Мой вопрос был "как" отделить европейцев. Ответ есть?

www.maxmind.com / GeoIP / но полного ответа нет,

потому что хозяева IP номеров иногда меняются, ...

script-install:
Artisan, до своего сервера к сожалению пока не дожил

www.FirstVDS.ru / www.MiniVDS.com

от $6 в месяц / для начала годится

Всего: 5931