пытаюсь ответить на ваши вопросы, но не могу, так как не понимаю их сути.
Для меня не составляет никакой сложности проанализировать логи поисковиков ни с технической, ни с математической ни в конце концов ресурсовой стороны. Мне это просто не интересно\не нужно.
Я не вижу в какой части этой задачи могут возникнуть непреодолимые проблемы.
ЗЫ: сервис по обкатке гипотез называеться матанализ и статистика(у меня он есть))), корреляция небольшая их часть))
Если вы хотите понять хотя бы примерно логику бота - вам нужно взять логи, сделать по ним статистику, выбрать гипотезы и проверить.
2greenwood
Я знаю о кореляции намного больше, чем вы можете себе представить))
Структура сайта не имеет ни малейшего отношения к вопросу.
Объясняю на пальцах.
Для того, чтобы узнать с какого ресурса(я так понял вы имеете ввиду ДНС имя) пришел бот, он должен это либо сам сказать(хотя бы косвенно, например в юзерагенте что это YandexBot) либо нужно сделать обратный резолвинг IP адресу, с которого пришел этот самый бот(хотя отличить бота от обычного человека не такая уж простая задача как кажеться на первый взгляд неискушенным))) Так вот, когда вы по адресу пытаетесь определить имя, это имя не обязательно соответсвует тому, которое вы называете беком. Конечно, правилом хорошего тона, да и исходя из других принципов, это имя должно соответствовать прямому. Более того, любой мало мальски солидный поисковик имеет однозначное сопоставление своих прямых ДНС зон и обратных. Однако это не всегда верно, и я уверен что поисковики имеют отдельные сервера в которых нет корректных обратных зон, которые бы указывали на принадлежность к определенной поисковой системе. Это нужно например для теста на клоакинг и других автоматических тестов "на вшивость"
Так что ваша позиция не ясна, или вопрос сформулирован размыто.
Это не мнение а точное знание вопроса)
В общем случае этого сделать невозможно.
Если это какие то солидные! поисковые роботы, которые оставляют хотя бы какую то инфу о себе (хотя робот может этого не делать, просто правило хорошего тона) можно пытаться коррелировать их заголовки. Можно иметь базу ip и какие то патерны и по ним делать выводы. Но в общем случае это нерешаемая задача, так как любой может написать робот, который будет действовать по принципам, понятным только создателю. Так что ваш оппонент прав.
Какой именно бот? Который ходит по http? И что подразумевается под понятием проследить?
Все заголовки который отдает бот можно "коррелировать"
Вопрос нераскрыт)
А зачем вам эти ссылки? Пиара нагнать и денег нарубить? Так на этом много (относительно других областей бизнеса) в общем то и не заработать. Так, небольшой бонус в большинстве случаев. А если вы пытаетесь нарубить бабла, и вас давит жаба что на вашей работе его рубит кто то другой - возможно стоит задуматься о смене сферы деятельности?
Замечательно сказанно!
Посмотрите на это с другой стороны. Если вы напишите хорошие тексты, они разойдуться сами[по вашему натырят))] вам даже не понадобиться их пиарить, все сделают за вас. Пользуйтесь этим а не жалуйтесь!
Кто не согласен с этой точкой зрения - пишите в блокнотах под падушкой. Может никто и не позарится.
PS. "Тырю" много, часто и быстро. Защититься от меня вы скорее всего не сможете. Так что занимайтесь делом а не "розбирайтесь с ворами"))
Скорее всего какойто робот ищет конкретные уязвимости