Гипотеза: Как просто Яндекс определяет SapeXap-ссылки

93

egosoccer

3 июля 2007, 13:11

11648

Коллеги, на днях продумывал различные способы, с помощью которых Яндекс может находить и отслеживать на сайтах ссылки проставленные системами Xap и Sape.

Наиболее простой и надежный вариант (не требуется значительных серверных ресурсов) из всех показался такой (назовем его "по дате модификации и объему страницы"):

1. При заходе робота на страницу, которая уже была проиндексирована ранее проверяется объем страницы в байтах.

2. Если объем изменился - проверяется дата изменения страницы.

3. Если дата изменения осталась прежней - высока вероятность работы на странице php-кода SAPE или XAP. (Как известно эти php-коды просто добавляют ссылки на страницу не модифицируя дату изменения страницы)

4. Далее все еще проще - проверяется что изменилось на странице (diff) - если в diff попала ссылка - значит она 100% проставлена одной из систем.

Что дальше делать с такой страницей - ежу понятно - маркируем ее и не учитываем с нее ссылочное и ТИЦ (еще страшнее добавляем самому сайту-хозяину этой страницы коэффициент для общего непота или бана).

Это лишь одна из гипотез, механизм работы которой прост и надежен. Если у вас есть другие - колитесь, обсудим.

[Удален]

3 июля 2007, 13:14

#1

egosoccer,

1. не все сервера возвращают дату изменения документов

2. Для большинства сайтов этот параметр абсурден, т.к. контент меняется динамически и добавление простой обновляемой ленты новостей сводит все на нет.

Незачот. Думайте еще.

165

Dnn

3 июля 2007, 13:16

#2

+1

тогда уж проще искать на серваке папку sape (все итак знают ее название), или сам файл sape.php, что тоже особо не дает плодов, т.к. папка-то есть, но кода может и не быть...

T

181

Timen

3 июля 2007, 13:19

#3

egosoccer:
1. проверяется объем страницы в байтах.

Логично...

egosoccer:
2. Если объем изменился - проверяется дата изменения страницы. 3. Если дата изменения осталась прежней - высока вероятность работы на странице php-кода SAPE или XAP. (Как известно эти php-коды просто добавляют ссылки на страницу не модифицируя дату изменения страницы)

Большинство страниц сайтов генерируются скриптами, которые, к сожалению, не отдают даты модификации страницы или отдают ее некорректно, поэтому на этот параметр опираться нельзя.

egosoccer:
4. проверяется что изменилось на странице (diff) - если в diff попала ссылка - значит она 100% проставлена одной из систем.

Логично, но если убрать 2 и 3 пункт на такой анализ нужно потратить не очень мало времени, кроме того, не все ссылки ставятся системами, может вебмастер действительно поставил ссылку на качественный ресурс...

Timen (http://www.timen.com.ua/)

61

Real

3 июля 2007, 13:21

#4

Dnn:
на серваке папку sape (все итак знают ее название)

там мд5 хеш какой-то, и его название знает только владелец сайта

он самый (http://alexvolkov.ru)

E

93

egosoccer

3 июля 2007, 13:24

#5

aka352:
egosoccer,
1. не все сервера возвращают дату изменения документов
2. Для большинства сайтов этот параметр абсурден, т.к. контент меняется динамически и добавление простой обновляемой ленты новостей сводит все на нет.

Незачот. Думайте еще.

aka352,

Здесь ключ в пункте 4. Diff ведь можно легко проанализировать - это лента новостей или просто ссылка - поддается простому анализу. Отделяем т.с. зерна от шелухи.

165

Dnn

3 июля 2007, 13:26

#6

Real:
там мд5 хеш какой-то, и его название знает только владелец сайта

внутри нее лежат два файла, их наличие на 100% отражает привязку сайта к системе, по сути только за это можно смело "валить", но боюсь у яндекса просто не хватит логики пояснить пользователям мотивацию этого шага

Cloudflare меняет записи dns Яндекс.Деньги стали доступнее для Реклама по Директу стоит

333

XPraptor

3 июля 2007, 13:38

#7

Dnn - Никогда и никто не сможет узнать какие папки у вас на сервере (если вы не тормознули и забыли запретить вывод листинга каталогов при отсутствии запрашиваемой страницы), тем более, какие файлы в этих папках.

egosoccer - У меня 60% сайтов с динамическим кодом системы собственной рекламной открутки. Все ссылки, кнопки, банеры показываются согласно правилам крутилки - это что сапе или ксап должен быть по вашему алгоритму?

Время модификации страниц - все мои страницы php отдают что изменилась 45 минут назад (собственные динамические крутилки, генераторы контента из базы и новостные движки подтверждают эти изменения, никогда страница не будет одинаковой даже если смотреть через секунду, объем соответствено тоже).

Никак вы не узнаете что это ссылки сапы и ксапы, кроме как влезть в саму систему и там отлавливать.

egosoccer, Dnn - не зачет.

TP

109

TPAKTOP

3 июля 2007, 13:59

#8

Dnn:
внутри нее лежат два файла, их наличие на 100% отражает привязку сайта к системе, по сути только за это можно смело "валить", но боюсь у яндекса просто не хватит логики пояснить пользователям мотивацию этого шага

16 вариантов каждого из символов названия папки, длиной в 32 символа - это 16 в 32 степени вариантов - у виндового калькулятора не хватило разрядной сетки, чтобы результат отобразить. Яндексу 100 лет сайт досить придется, чтобы название папочки угадать, наконец. А потом он сможет посмотреть, есть ли в папочке файлы сапе :)

719

basterr

3 июля 2007, 14:00

#9

имхо, проще просто фильтровать сайты, у которых на более 30-50% страниц стоят ссылки блоками. зафильтруются и нормальные сайты конечно, но в основном то что нужно. еще можно смотреть по тому, что на каждой странице одинаковое количество внешних.

Упал доход Google Updates - апдейты ISPmanager -> FastPanel простой

KG

123

KindGood

3 июля 2007, 14:20

#10

Естественные ссылки на внутренних страницах должны появляться вместе с этой самой страницей. Я не могу придумать распространеного варианта, когда сначала появляется страница, а потом на ней появляются естественные ссылки.

Т.е. если в индексе яндекса уже есть страница, а потом робот на этой же странице видит ссылки, которых раньше не было, их можно тупо игнорировать.

Видео находится за пределами Редиректы со страниц, которых Помощь в фильтрации ботов

Зачем быть уникальным в мире, где все можно скопировать

Дзен реализовал для авторов возможность вывода денег через СПБ