Вы совсем не поняли задачу.
Бот не ходит по линкам а помещает адреса в очередь для обхода, очередь после этого может меняться как угодно хозяину системы, потом бот выбирает адреса из этой очереди, что для первого нахождения адреса может помочь угадать где его нашли.
Как хозяин бота захочет так и будет.
Попробуйте ответить зачем это надо хозяину робота.
А если для индексации нужен порог в десяток линков?
Если бот мог узнать про сайт только из одного источника то задача уже решена, в общем случае задача не имеет смысла потому что очередь на индексацию не должна сохранять порядок источников, а упорядочивается например по нагрузке на каналы для оптимизации их использования. Кстати некоторые боты передают реф, но обычно это адрес корневого документа того сайта который индексируется, чтобы обойти отказ сайта отдавать документы без рефа.
Зерно истины в предложении есть не только для защиты от бана но чтобы не спамили, другие поисковые системы сделали NOFOLLOW как раз для этого но криво, яндексоиды советуют применять NOINDEX что тоже очень криво, было бы полезно сделать это в robots.txt но ТС уже спалил тему, ...
User-Agent: Yandex
Nepot: /
Хорошие доски принимают объявления только от людей.
использование C для Web программирования
Для тех кто не понял почему я написал что wikipedia благотворительная организация, если они начнут зарабатывать то потеряют этот статус, а вместе с ним возможность легально даром использовать чужой контент, то есть сайта в том смысле как есть просто не будет, спонсируют этот сайт крупные организации которые там проталкивают свою пропаганду, за что в некоторых странах еще и вычеты из налогов получаются, прочитайте внимательно в каких и убедитесь что большинство здесь чужие на этом празднике.
www.maxmind.com / GeoIP / но полного ответа нет,
потому что хозяева IP номеров иногда меняются, ...
www.FirstVDS.ru / www.MiniVDS.com
от $6 в месяц / для начала годится