Гипотеза: Как просто Яндекс определяет SapeXap-ссылки - Форум об интернет-маркетинге
Этот сайт существует на доходы от рекламы.
Пожалуйста, выключите AdBlock.
Вернуться   Форум об интернет-маркетинге > >
Ответ
 
Опции темы
Старый 03.07.2007, 16:11   #1
Аспирант
 
Регистрация: 27.08.2006
Сообщений: 137
Репутация: 5305

По умолчанию Гипотеза: Как просто Яндекс определяет SapeXap-ссылки

Коллеги, на днях продумывал различные способы, с помощью которых Яндекс может находить и отслеживать на сайтах ссылки проставленные системами Xap и Sape.
Наиболее простой и надежный вариант (не требуется значительных серверных ресурсов) из всех показался такой (назовем его "по дате модификации и объему страницы"):

1. При заходе робота на страницу, которая уже была проиндексирована ранее проверяется объем страницы в байтах.
2. Если объем изменился - проверяется дата изменения страницы.
3. Если дата изменения осталась прежней - высока вероятность работы на странице php-кода SAPE или XAP. (Как известно эти php-коды просто добавляют ссылки на страницу не модифицируя дату изменения страницы)
4. Далее все еще проще - проверяется что изменилось на странице (diff) - если в diff попала ссылка - значит она 100% проставлена одной из систем.

Что дальше делать с такой страницей - ежу понятно - маркируем ее и не учитываем с нее ссылочное и ТИЦ (еще страшнее добавляем самому сайту-хозяину этой страницы коэффициент для общего непота или бана).

Это лишь одна из гипотез, механизм работы которой прост и надежен. Если у вас есть другие - колитесь, обсудим.
egosoccer вне форума   Ответить с цитированием

Реклама
Старый 03.07.2007, 16:14   #2
aka352
Banned
 
Аватар для aka352
 
Регистрация: 23.03.2004
Адрес: Воронеж
Сообщений: 1,434
Репутация: 41103

По умолчанию Re: Гипотеза: Как просто Яндекс определяет SapeXap-ссылки

egosoccer,
1. не все сервера возвращают дату изменения документов
2. Для большинства сайтов этот параметр абсурден, т.к. контент меняется динамически и добавление простой обновляемой ленты новостей сводит все на нет.

Незачот. Думайте еще.
aka352 вне форума   Ответить с цитированием
Старый 03.07.2007, 16:16   #3
Dnn
Академик
 
Регистрация: 30.06.2005
Сообщений: 1,141
Репутация: 117133

По умолчанию Re: Гипотеза: Как просто Яндекс определяет SapeXap-ссылки

+1

тогда уж проще искать на серваке папку sape (все итак знают ее название), или сам файл sape.php, что тоже особо не дает плодов, т.к. папка-то есть, но кода может и не быть...
Dnn вне форума   Ответить с цитированием
Старый 03.07.2007, 16:19   #4
Timen
Академик
 
Регистрация: 11.08.2005
Адрес: Kiev, Ukraine
Сообщений: 1,343
Репутация: 107459
Отправить сообщение для Timen с помощью ICQ

По умолчанию Re: Гипотеза: Как просто Яндекс определяет SapeXap-ссылки

Цитата:
Сообщение от egosoccer
1. проверяется объем страницы в байтах.
Логично...

Цитата:
Сообщение от egosoccer
2. Если объем изменился - проверяется дата изменения страницы. 3. Если дата изменения осталась прежней - высока вероятность работы на странице php-кода SAPE или XAP. (Как известно эти php-коды просто добавляют ссылки на страницу не модифицируя дату изменения страницы)
Большинство страниц сайтов генерируются скриптами, которые, к сожалению, не отдают даты модификации страницы или отдают ее некорректно, поэтому на этот параметр опираться нельзя.

Цитата:
Сообщение от egosoccer
4. проверяется что изменилось на странице (diff) - если в diff попала ссылка - значит она 100% проставлена одной из систем.
Логично, но если убрать 2 и 3 пункт на такой анализ нужно потратить не очень мало времени, кроме того, не все ссылки ставятся системами, может вебмастер действительно поставил ссылку на качественный ресурс...
__________________
Timen
Timen вне форума   Ответить с цитированием
Старый 03.07.2007, 16:21   #5
Real
Профессор
 
Аватар для Real
 
Регистрация: 24.05.2006
Адрес: RZN
Сообщений: 520
Репутация: 23559
Отправить сообщение для Real с помощью ICQ
Социальные сети Страница в Одноклассниках Профиль в ВКонтакте

По умолчанию Re: Гипотеза: Как просто Яндекс определяет SapeXap-ссылки

Цитата:
Сообщение от Dnn
на серваке папку sape (все итак знают ее название)
там мд5 хеш какой-то, и его название знает только владелец сайта
__________________
он самый
Real вне форума   Ответить с цитированием
Старый 03.07.2007, 16:24   #6
egosoccer
Аспирант
 
Регистрация: 27.08.2006
Сообщений: 137
Репутация: 5305

ТопикСтартер Re: Гипотеза: Как просто Яндекс определяет SapeXap-ссылки

Цитата:
Сообщение от aka352
egosoccer,
1. не все сервера возвращают дату изменения документов
2. Для большинства сайтов этот параметр абсурден, т.к. контент меняется динамически и добавление простой обновляемой ленты новостей сводит все на нет.

Незачот. Думайте еще.
aka352,

Здесь ключ в пункте 4. Diff ведь можно легко проанализировать - это лента новостей или просто ссылка - поддается простому анализу. Отделяем т.с. зерна от шелухи.
egosoccer вне форума   Ответить с цитированием
Старый 03.07.2007, 16:26   #7
Dnn
Академик
 
Регистрация: 30.06.2005
Сообщений: 1,141
Репутация: 117133

По умолчанию Re: Гипотеза: Как просто Яндекс определяет SapeXap-ссылки

Цитата:
Сообщение от Real
там мд5 хеш какой-то, и его название знает только владелец сайта
внутри нее лежат два файла, их наличие на 100% отражает привязку сайта к системе, по сути только за это можно смело "валить", но боюсь у яндекса просто не хватит логики пояснить пользователям мотивацию этого шага
Dnn вне форума   Ответить с цитированием
Старый 03.07.2007, 16:38   #8
XPraptor
WebMonster
 
Аватар для XPraptor
 
Регистрация: 15.10.2004
Адрес: Minsk
Сообщений: 2,699
Репутация: 190763

По умолчанию Re: Гипотеза: Как просто Яндекс определяет SapeXap-ссылки

Dnn - Никогда и никто не сможет узнать какие папки у вас на сервере (если вы не тормознули и забыли запретить вывод листинга каталогов при отсутствии запрашиваемой страницы), тем более, какие файлы в этих папках.

egosoccer - У меня 60% сайтов с динамическим кодом системы собственной рекламной открутки. Все ссылки, кнопки, банеры показываются согласно правилам крутилки - это что сапе или ксап должен быть по вашему алгоритму?
Время модификации страниц - все мои страницы php отдают что изменилась 45 минут назад (собственные динамические крутилки, генераторы контента из базы и новостные движки подтверждают эти изменения, никогда страница не будет одинаковой даже если смотреть через секунду, объем соответствено тоже).

Никак вы не узнаете что это ссылки сапы и ксапы, кроме как влезть в саму систему и там отлавливать.

egosoccer, Dnn - не зачет.
XPraptor вне форума   Ответить с цитированием
Старый 03.07.2007, 16:59   #9
TPAKTOP
Кандидат наук
 
Регистрация: 12.03.2005
Сообщений: 417
Репутация: 24438

По умолчанию Re: Гипотеза: Как просто Яндекс определяет SapeXap-ссылки

Цитата:
Сообщение от Dnn
внутри нее лежат два файла, их наличие на 100% отражает привязку сайта к системе, по сути только за это можно смело "валить", но боюсь у яндекса просто не хватит логики пояснить пользователям мотивацию этого шага
16 вариантов каждого из символов названия папки, длиной в 32 символа - это 16 в 32 степени вариантов - у виндового калькулятора не хватило разрядной сетки, чтобы результат отобразить. Яндексу 100 лет сайт досить придется, чтобы название папочки угадать, наконец. А потом он сможет посмотреть, есть ли в папочке файлы сапе
TPAKTOP вне форума   Ответить с цитированием
Старый 03.07.2007, 17:00   #10
basterr
Готовимся к дефолту
 
Аватар для basterr
 
Регистрация: 24.11.2005
Сообщений: 7,999
Репутация: 460701

По умолчанию Re: Гипотеза: Как просто Яндекс определяет SapeXap-ссылки

имхо, проще просто фильтровать сайты, у которых на более 30-50% страниц стоят ссылки блоками. зафильтруются и нормальные сайты конечно, но в основном то что нужно. еще можно смотреть по тому, что на каждой странице одинаковое количество внешних.
basterr вне форума   Ответить с цитированием
Ответ




Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход



Текущее время: 06:38. Часовой пояс GMT +3.

Регистрация Справка Календарь Поддержка Все разделы прочитаны