- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Коллеги, на днях продумывал различные способы, с помощью которых Яндекс может находить и отслеживать на сайтах ссылки проставленные системами Xap и Sape.
Наиболее простой и надежный вариант (не требуется значительных серверных ресурсов) из всех показался такой (назовем его "по дате модификации и объему страницы"):
1. При заходе робота на страницу, которая уже была проиндексирована ранее проверяется объем страницы в байтах.
2. Если объем изменился - проверяется дата изменения страницы.
3. Если дата изменения осталась прежней - высока вероятность работы на странице php-кода SAPE или XAP. (Как известно эти php-коды просто добавляют ссылки на страницу не модифицируя дату изменения страницы)
4. Далее все еще проще - проверяется что изменилось на странице (diff) - если в diff попала ссылка - значит она 100% проставлена одной из систем.
Что дальше делать с такой страницей - ежу понятно - маркируем ее и не учитываем с нее ссылочное и ТИЦ (еще страшнее добавляем самому сайту-хозяину этой страницы коэффициент для общего непота или бана).
Это лишь одна из гипотез, механизм работы которой прост и надежен. Если у вас есть другие - колитесь, обсудим.
egosoccer,
1. не все сервера возвращают дату изменения документов
2. Для большинства сайтов этот параметр абсурден, т.к. контент меняется динамически и добавление простой обновляемой ленты новостей сводит все на нет.
Незачот. Думайте еще.
+1
тогда уж проще искать на серваке папку sape (все итак знают ее название), или сам файл sape.php, что тоже особо не дает плодов, т.к. папка-то есть, но кода может и не быть...
1. проверяется объем страницы в байтах.
Логично...
2. Если объем изменился - проверяется дата изменения страницы. 3. Если дата изменения осталась прежней - высока вероятность работы на странице php-кода SAPE или XAP. (Как известно эти php-коды просто добавляют ссылки на страницу не модифицируя дату изменения страницы)
Большинство страниц сайтов генерируются скриптами, которые, к сожалению, не отдают даты модификации страницы или отдают ее некорректно, поэтому на этот параметр опираться нельзя.
4. проверяется что изменилось на странице (diff) - если в diff попала ссылка - значит она 100% проставлена одной из систем.
Логично, но если убрать 2 и 3 пункт на такой анализ нужно потратить не очень мало времени, кроме того, не все ссылки ставятся системами, может вебмастер действительно поставил ссылку на качественный ресурс...
на серваке папку sape (все итак знают ее название)
там мд5 хеш какой-то, и его название знает только владелец сайта
egosoccer,
1. не все сервера возвращают дату изменения документов
2. Для большинства сайтов этот параметр абсурден, т.к. контент меняется динамически и добавление простой обновляемой ленты новостей сводит все на нет.
Незачот. Думайте еще.
aka352,
Здесь ключ в пункте 4. Diff ведь можно легко проанализировать - это лента новостей или просто ссылка - поддается простому анализу. Отделяем т.с. зерна от шелухи.
там мд5 хеш какой-то, и его название знает только владелец сайта
внутри нее лежат два файла, их наличие на 100% отражает привязку сайта к системе, по сути только за это можно смело "валить", но боюсь у яндекса просто не хватит логики пояснить пользователям мотивацию этого шага
Dnn - Никогда и никто не сможет узнать какие папки у вас на сервере (если вы не тормознули и забыли запретить вывод листинга каталогов при отсутствии запрашиваемой страницы), тем более, какие файлы в этих папках.
egosoccer - У меня 60% сайтов с динамическим кодом системы собственной рекламной открутки. Все ссылки, кнопки, банеры показываются согласно правилам крутилки - это что сапе или ксап должен быть по вашему алгоритму?
Время модификации страниц - все мои страницы php отдают что изменилась 45 минут назад (собственные динамические крутилки, генераторы контента из базы и новостные движки подтверждают эти изменения, никогда страница не будет одинаковой даже если смотреть через секунду, объем соответствено тоже).
Никак вы не узнаете что это ссылки сапы и ксапы, кроме как влезть в саму систему и там отлавливать.
egosoccer, Dnn - не зачет.
внутри нее лежат два файла, их наличие на 100% отражает привязку сайта к системе, по сути только за это можно смело "валить", но боюсь у яндекса просто не хватит логики пояснить пользователям мотивацию этого шага
16 вариантов каждого из символов названия папки, длиной в 32 символа - это 16 в 32 степени вариантов - у виндового калькулятора не хватило разрядной сетки, чтобы результат отобразить. Яндексу 100 лет сайт досить придется, чтобы название папочки угадать, наконец. А потом он сможет посмотреть, есть ли в папочке файлы сапе :)
имхо, проще просто фильтровать сайты, у которых на более 30-50% страниц стоят ссылки блоками. зафильтруются и нормальные сайты конечно, но в основном то что нужно. еще можно смотреть по тому, что на каждой странице одинаковое количество внешних.
Естественные ссылки на внутренних страницах должны появляться вместе с этой самой страницей. Я не могу придумать распространеного варианта, когда сначала появляется страница, а потом на ней появляются естественные ссылки.
Т.е. если в индексе яндекса уже есть страница, а потом робот на этой же странице видит ссылки, которых раньше не было, их можно тупо игнорировать.