Возник спор

greenwood
На сайте с 08.09.2003
Offline
519
9557

в аське :

я настаиваю на том, что проследить откуда пришел поисковый бот (в смысле с какого ресурса по беку) можно - по косвенным признакам (коррелировать)

опонент доказывает, что это фантастика, мотивируя что бот не имеет рефера (это бесспорно)

интересно ваше мнение :smoke:

Lesni4ok
На сайте с 25.08.2007
Offline
22
#1

Какой именно бот? Который ходит по http? И что подразумевается под понятием проследить?

Все заголовки который отдает бот можно "коррелировать"

Вопрос нераскрыт)

greenwood
На сайте с 08.09.2003
Offline
519
#2

уточнил .....

Artisan
На сайте с 04.03.2005
Offline
354
#3

Если бот мог узнать про сайт только из одного источника то задача уже решена, в общем случае задача не имеет смысла потому что очередь на индексацию не должна сохранять порядок источников, а упорядочивается например по нагрузке на каналы для оптимизации их использования. Кстати некоторые боты передают реф, но обычно это адрес корневого документа того сайта который индексируется, чтобы обойти отказ сайта отдавать документы без рефа.

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
greenwood
На сайте с 08.09.2003
Offline
519
#4
Artisan:
в общем случае задача не имеет смысла потому что очередь на индексацию не должна сохранять порядок источников

вопрос должна/не должна во многом спорен - исходим из того что должна

Lesni4ok
На сайте с 25.08.2007
Offline
22
#5

Это не мнение а точное знание вопроса)

В общем случае этого сделать невозможно.

Если это какие то солидные! поисковые роботы, которые оставляют хотя бы какую то инфу о себе (хотя робот может этого не делать, просто правило хорошего тона) можно пытаться коррелировать их заголовки. Можно иметь базу ip и какие то патерны и по ним делать выводы. Но в общем случае это нерешаемая задача, так как любой может написать робот, который будет действовать по принципам, понятным только создателю. Так что ваш оппонент прав.

greenwood
На сайте с 08.09.2003
Offline
519
#6
Lesni4ok:
Но в общем случае это нерешаемая задача, так как любой может написать робот, который будет действовать по принципам, понятным только создателю.

а что ? боты уже по ссылкам не ходят ? :)

или все в форму сабмита добавляют свои ресурсы ?

T
На сайте с 11.08.2005
Offline
181
#7

Думаю, что многое будет зависеть от структуры сайта (перелинковки страниц) на котором требуется отследить активность бота а также от количества внешних ссылок на конкретную страницу.

Боты, как правило, индексируют страницы подряд (опускаем варианты с многопотоковой индексацией и возможные перебои в работе серверов), то есть:

1. Индексируется главная страница

2. Анализируется страница и найденные ссылки ставятся в очередь на индексацию

3. Индексируются страницы из очереди, выполняется пункт 2 и т.д.

Поэтому можно предположить, что страницы будут индексироваться без особых прыжков, то есть сначала страницы верхних уровней, потом нижних.

Если же некоторые внутренние страницы посещаются не по логическому графику (спонтанно), то это может свидетельствовать о переходе бота по ссылке с другого сайта.

PS: Несмотря на все это, я думаю, что проследить с высокой вероятностью откуда пришел поисковый бот (а именно реф. бота) для полноценных, развивающихся сайтов скорее всего нельзя.

Artisan
На сайте с 04.03.2005
Offline
354
#8
greenwood:
исходим из того что должна

Попробуйте ответить зачем это надо хозяину робота.

А если для индексации нужен порог в десяток линков?

T
На сайте с 11.08.2005
Offline
181
#9

удалено, дубль...

greenwood
На сайте с 08.09.2003
Offline
519
#10
Timen:
Если же некоторые внутренние страницы посещаются не по логическому графику (спонтанно), то это может свидетельствовать о переходе бота по ссылке с другого сайта.

по логическому спонтанно не бывает .

ага ... значит такой вариант не отрицается, как то что бот все таки ходит по ссылкам, а не всегда по графику поставленного на индексацию

А потом, хорошо ..сайт весь проиндексирован - дальше какой порядок обхода ?

По графику или по логическому варианту ?

При условии, что мы берем большой временной отрезок

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий