Гипотеза: Как просто Яндекс определяет SapeXap-ссылки

E
На сайте с 27.08.2006
Offline
93
11619

Коллеги, на днях продумывал различные способы, с помощью которых Яндекс может находить и отслеживать на сайтах ссылки проставленные системами Xap и Sape.

Наиболее простой и надежный вариант (не требуется значительных серверных ресурсов) из всех показался такой (назовем его "по дате модификации и объему страницы"):

1. При заходе робота на страницу, которая уже была проиндексирована ранее проверяется объем страницы в байтах.

2. Если объем изменился - проверяется дата изменения страницы.

3. Если дата изменения осталась прежней - высока вероятность работы на странице php-кода SAPE или XAP. (Как известно эти php-коды просто добавляют ссылки на страницу не модифицируя дату изменения страницы)

4. Далее все еще проще - проверяется что изменилось на странице (diff) - если в diff попала ссылка - значит она 100% проставлена одной из систем.

Что дальше делать с такой страницей - ежу понятно - маркируем ее и не учитываем с нее ссылочное и ТИЦ (еще страшнее добавляем самому сайту-хозяину этой страницы коэффициент для общего непота или бана).

Это лишь одна из гипотез, механизм работы которой прост и надежен. Если у вас есть другие - колитесь, обсудим.

[Удален]
#1

egosoccer,

1. не все сервера возвращают дату изменения документов

2. Для большинства сайтов этот параметр абсурден, т.к. контент меняется динамически и добавление простой обновляемой ленты новостей сводит все на нет.

Незачот. Думайте еще.

Dnn
На сайте с 30.06.2005
Offline
165
Dnn
#2

+1

тогда уж проще искать на серваке папку sape (все итак знают ее название), или сам файл sape.php, что тоже особо не дает плодов, т.к. папка-то есть, но кода может и не быть...

T
На сайте с 11.08.2005
Offline
181
#3
egosoccer:
1. проверяется объем страницы в байтах.

Логично...

egosoccer:
2. Если объем изменился - проверяется дата изменения страницы. 3. Если дата изменения осталась прежней - высока вероятность работы на странице php-кода SAPE или XAP. (Как известно эти php-коды просто добавляют ссылки на страницу не модифицируя дату изменения страницы)

Большинство страниц сайтов генерируются скриптами, которые, к сожалению, не отдают даты модификации страницы или отдают ее некорректно, поэтому на этот параметр опираться нельзя.

egosoccer:
4. проверяется что изменилось на странице (diff) - если в diff попала ссылка - значит она 100% проставлена одной из систем.

Логично, но если убрать 2 и 3 пункт на такой анализ нужно потратить не очень мало времени, кроме того, не все ссылки ставятся системами, может вебмастер действительно поставил ссылку на качественный ресурс...

Real
На сайте с 24.05.2006
Offline
61
#4
Dnn:
на серваке папку sape (все итак знают ее название)

там мд5 хеш какой-то, и его название знает только владелец сайта

он самый (http://alexvolkov.ru)
E
На сайте с 27.08.2006
Offline
93
#5
aka352:
egosoccer,
1. не все сервера возвращают дату изменения документов
2. Для большинства сайтов этот параметр абсурден, т.к. контент меняется динамически и добавление простой обновляемой ленты новостей сводит все на нет.

Незачот. Думайте еще.

aka352,

Здесь ключ в пункте 4. Diff ведь можно легко проанализировать - это лента новостей или просто ссылка - поддается простому анализу. Отделяем т.с. зерна от шелухи.

Dnn
На сайте с 30.06.2005
Offline
165
Dnn
#6
Real:
там мд5 хеш какой-то, и его название знает только владелец сайта

внутри нее лежат два файла, их наличие на 100% отражает привязку сайта к системе, по сути только за это можно смело "валить", но боюсь у яндекса просто не хватит логики пояснить пользователям мотивацию этого шага

XPraptor
На сайте с 15.10.2004
Offline
333
#7

Dnn - Никогда и никто не сможет узнать какие папки у вас на сервере (если вы не тормознули и забыли запретить вывод листинга каталогов при отсутствии запрашиваемой страницы), тем более, какие файлы в этих папках.

egosoccer - У меня 60% сайтов с динамическим кодом системы собственной рекламной открутки. Все ссылки, кнопки, банеры показываются согласно правилам крутилки - это что сапе или ксап должен быть по вашему алгоритму?

Время модификации страниц - все мои страницы php отдают что изменилась 45 минут назад (собственные динамические крутилки, генераторы контента из базы и новостные движки подтверждают эти изменения, никогда страница не будет одинаковой даже если смотреть через секунду, объем соответствено тоже).

Никак вы не узнаете что это ссылки сапы и ксапы, кроме как влезть в саму систему и там отлавливать.

egosoccer, Dnn - не зачет.

TP
На сайте с 12.03.2005
Offline
109
#8
Dnn:
внутри нее лежат два файла, их наличие на 100% отражает привязку сайта к системе, по сути только за это можно смело "валить", но боюсь у яндекса просто не хватит логики пояснить пользователям мотивацию этого шага

16 вариантов каждого из символов названия папки, длиной в 32 символа - это 16 в 32 степени вариантов - у виндового калькулятора не хватило разрядной сетки, чтобы результат отобразить. Яндексу 100 лет сайт досить придется, чтобы название папочки угадать, наконец. А потом он сможет посмотреть, есть ли в папочке файлы сапе :)

basterr
На сайте с 24.11.2005
Offline
719
#9

имхо, проще просто фильтровать сайты, у которых на более 30-50% страниц стоят ссылки блоками. зафильтруются и нормальные сайты конечно, но в основном то что нужно. еще можно смотреть по тому, что на каждой странице одинаковое количество внешних.

KG
На сайте с 02.07.2005
Offline
123
#10

Естественные ссылки на внутренних страницах должны появляться вместе с этой самой страницей. Я не могу придумать распространеного варианта, когда сначала появляется страница, а потом на ней появляются естественные ссылки.

Т.е. если в индексе яндекса уже есть страница, а потом робот на этой же странице видит ссылки, которых раньше не было, их можно тупо игнорировать.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий