Думаю, пока Яндекс просто не успел включить фильтры в связи с ТАКИМ апом (с сильным подозрением на релиз Находки:)). Не переживайте, усе буде...:D
Pall, можно вопрос?
По точному вхождению анкора "порно вечеринки петербург" мне не удалось найти ни одного донора. Но зато по "порно вечеринки в Москве" выловил пару-тройку форумов, где были прописаны ссылки с порноанкорами. Посмотрел на них - все идут из разделов "группы (службы, сообщества, сервисы, блоги...)" для конкретных ПС. Т.е., это был не обычный линкбомбинг (раз по анкору донор не ищется), а "внутренний" - ПС была пробомблена через свои же службы? В этой области служб поиск, как я знаю, отличается от обычного.
http://www.seonews.ru/masterclass/85/ - вот отсюда и брал инфу
По алгоритмической части читал вот это: http://download.yandex.ru/company/paper_65_v1.rtf. Насколько я понял, на данный момент при определении нечётких дублей реализован метод супершинглов с хэш-функцией алгоритма MD5 для подсчёта контрольных сумм шинглов. Или что-то не так?
Посмотрел запросы, которые Ваш скриптик генерирует. Замечания к скрипту:
1) Не ясна методика определения непота - ведь теперь ссылочное с донора не обнуляется как ранее, а значит, в выдаче он будет присутствовать.
2) Можно попробовать ввести метрику между ссылочным (для НПС) и текстовым (для сайтов-доноров с анкором). Адекватно ли она используется в скрипте?
3) Он точно не поможет на коротких запросах (до 3 слов): с такой реализацией нельзя делать корректный вывод по выдаче по анкорам (и запросам) типа "аренда квартиры", "ремонт офисов", "строительная техника", где эти слова имеют точное вхождение в текст и анкоры ссылок на сами сайты доноры большое число раз
4) Единственное место, где он может быть полезен - запросы от 3 и более слов. Но и здесь есть подводные камни - зачем Вам 3 запроса? не хватит ли одного - первого? или Вы можете получать переколдовку для остальных? и самое главное - как понимать результаты?
Ему что, хороший линк-бомбинг (или гугл-бомбинг) устроили в связи с переходом на гугловский движок (или его ещё не поставили)? Гугл (если я не ошибаюсь) пока плохо защищён от такого явления. Может, на Раме оторваться решили?
http://yandex.ru/yandsearch?text=%D0%B3%D1%80%D1%83%D0%B7%D0%BE%D0%BF%D0%B5%D1%80%D0%B5%D0%B2%D0%BE%D0%B7%D0%BA%D0%B8
14-е место 1,5 месяца назад было 1-2.
З.Ы. Запрос очень конкурентный, не какой-нибудь 3-4 словник, присутствующий на сайте!
Я думаю, Вы знаете такие понятия, как ошибки 1-го и 2-го рода. Цель моего топика - попытаться задаться вопросом дальнейшей минимизации таких ошибок, ведь, судя по постам в этой теме, они ещё достаточно велики. И не похоже, чтобы этот фактор (за который банят и фильтруют!) был несущественным.
А это и есть недостаток примера для конкретной формулы. Но есть же и другие оценки, и я предлагаю построить состоятельную оценку первоисточника текста. Хотя... может вы все правы, я тут ..ней страдаю, мне писать надо "классный ап" и "ТЫЦ +10", а не задаваться вопросами авторских прав.
true82,Неплохая попытка. Но у Вашего алгоритма есть следующие недостатки:
1) Такой способ ведёт к увеличению базы данных (в принципе, не страшно, но надо учитывать и это)
2) Ваш алгоритм действительно отследит при добавлении сайта с контентом, является ли новый сайт первоисточником или нет. Но как быть, если сайт уже создан, и на нём хотят поменять контент? Например, страница со статьёй существует, проиндексирована ПС. В какой-то момент на ней хотят поменять контент (перезалить его с целью, например, поискового продвижения). В выдаче она будет присутствовать с вновь залитым текстом, но когда он проиндексируется - вот вопрос, а за это время его кто-то может стащить. Видимый выход - ограничить к нему доступ (ну, не удалять же страницу, а потом добавлять!), но это чревато тем, что сайт не переиндексируется (робот в момент захода не получит к нему доступа).
Но это уже хорошая мысль по сравнению с тем, что мне пришлось читать в каментах на мой топик.
/ru/forum/259158
Здесь когда-то обсуждалась индексация сайтов. Pro-maker указал, что в документе есть разные поисковые зоны, которые (в силу каких-либо причин) могут индексироваться не одновременно. Такое явление и обсуждалось в этом топике для моих сайтов. Исходя из ситуации, описанной ТС, и предположив, что его скрипт написан не через одно место, логично предположить, что здесь имеет место непроиндексированность/вылет из индекса данной зоны данного сайта, при этом ранее она индексировалась (о чём говорит наличие сохранённой копии при запросе ТС к ней) Такое обычно возникает при проблемах с хостингом или зеркалами сайтов. Хотя не исключено что-то ещё (например, те же глюки Яндекса). Так что, Ёхан Палыч, зря Вы так иронизируете.
З.Ы. Кстати, Ваше обьяснение по поводу закрытия моих сайтов на Народе оказалось несостоятельным (профессионал-любитель, хе-хе...)
Ну, такое явление и раньше было. Причём даже в тех случаях, когда обращение шло напрямую к Яндексу через строку запроса. Если это не глюк Яндекса, то причины могут быть связаны с доступом к сайту: пришёл робот индексировать сайт и не получил доступа к зоне УРЛа, покрутился-покрутился, сделал вывод и ушёл.