Варианты:
1. Глюкнулся обратный индекс (по слову "Сейшелы" нет ссылки на морду романтики).
2. Отсев дублей кусков текста. Фантастический алгоритм: из всех дублей на странице отбирается самое репрезентативное слово и исключается из обратного индекса (не из сохраненной копии).
Слово "Сейшелы" из обратного индекса исключено:
http://www.yandex.ru/yandsearch?text=%28%D2%F3%F0%FB+%2F%2B1+%ED%E0+%2F%2B1+-%D1%E5%E9%F8%E5%EB%FB++%2F%2B1++%CE%F2%E4%FB%F5%29+%3C%3Curl%3D%22www.romanticflyers.ru%22
http://hghltd.yandex.com/yandbtm?url=http%3A%2F%2Fwww.romanticflyers.ru%2F&text=%D1%E5%E9%F8%E5%EB%FB&reqtext=%D1%E5%E9%F8%E5%EB%FB%3A%3A1819103916&dsn=0&d=7202410&sh=5&sg=36&isu=1
Люблю цифры.
Посмотрим по сайту "Сейшелы":
http://www.yandex.ru/yandsearch?text=%D1%E5%E9%F8%E5%EB%FB&pag=u&surl=romanticflyers.ru&
Из 9!!! показанных результатов СЕМЬ!!! имеют одинаковый тайтл.
И "найденных страниц" всего 10.
Нажимаем показать все:
http://www.yandex.ru/yandsearch?surl=romanticflyers.ru&pag=u&text=%D1%E5%E9%F8%E5%EB%FB&rd=0
И вылезает цифра в 1000 с лишним.
"Романтическая" морда наименее содержательная по контенту в смысле "Сейшелы" и вылазит из фильтра дубликатов только за счет контента ссылок на нее.
Для тех кто не в теме: не дубликатов СТРАНИЦ, а дубликатов НАЙДЕННОГО КОНТЕКСТА.
Я посмотрел не его тайтл, а длинную строку в теле:
"экзотические острова (Мальдивы, Сейшелы, Бали, Маврикий, Таити)"
http://www.yandex.ru/yandsearch?text=%22%FD%EA%E7%EE%F2%E8%F7%E5%F1%EA%E8%E5%20%EE%F1%F2%F0%EE%E2%E0%20(%CC%E0%EB%FC%E4%E8%E2%FB%2C%20%D1%E5%E9%F8%E5%EB%FB%2C%20%C1%E0%EB%E8%2C%20%CC%E0%E2%F0%E8%EA%E8%E9%2C%20%D2%E0%E8%F2%E8)%22&rd=0
Яндекс отрабатывает свой алгоритм отсева дублей "НА ЛЕТУ".
Количество дублей, которые он оставляет, ограничено, я неспроста над цифиркой 7 посмеялся :)
Для "Сейшелы" на странице оказалось слишком много стибренных один в один предложений, поэтому отфильтрованы все.
Для "Туры на" процент "греха" оказался меньше и "Туры на" не отфильтрованы.
А сниппеты ли считаются "найденным контекстом", или предложения, или метатеги, или шинглы ,или еще что, то это может быть и тем и другим и третьим и меняться от ноги разработчика, с которой он встал утром.
Еще один вариант: фильтрация ЗЮЗИКОВ (вес сейшел очень большой).
pro-maker, не согласны :)
Они "ищутся", но отсеиваются как дубли найденного контекста. Опять в Яндексе команда разработчиков отсева "найденных" дублей и команда разработчиков выдачи подсветки вразнобой работают. Растет Яндекс командами :)
Правая команда часто не знает, что делает левая :)
Зато для нас ПОКА(!!!) очень удобный инструмент для анализа как Яндекс отсеивает дубли :)
Начинаем отсчет времени реакции Яндекса. Когда он убъет такую подсветку :)
Как образец "из сейшел", откуда ноги растут:
и сайта "второй позиции" (_romanticflyers.ru) нет.
Кстати, смотрим на таинственное число семь в числе найденного :)
Яндекс Директ 65 рублей ключевик ипотека (контекст), но это вывих, средняя температура по больнице в 7 раз ниже.
Lotoss, подумайте, кому из Яндекса (да и из нас) захочется с Вами разбираться, если в Вашем коде есть такие штучки дрючки:
style="display:none; position:absolute; height:100%; width:100%; left:0; top:0; z-index:11110; background-image:
style="display:none; width:300; z-index:11111; position:relative;"
и так далее...
Такой взгляд на вещи очень не разумен и навряд ли выдержит серьезную критику.
Утрируя: например есть 30000 страниц с разными ВИЦ, тошнотами, числом ссылок на странице с текстами ссылок типа "комп айди гениус цена 13 рябчиков", либо "книжка такая сякая исбн номер такой". Как сделать быстро расчет на запрос "книжка" или "комп"? А если запрос будет "книжка" ИЛИ "комп"?
Число уникальных анкоров может все равно быть огромным, а тем более комбинаций этих анкоров. И все это считать на лету?
Про то СКОЛЬКО жирных ссылок учитывается (1, 2, 12, 15,...) и есть ли там группировки я пока помолчу :)
wolf, Скорее всего, Вы меня переоцениваете :)
wolf, ну подумайте, как Яндекс будет обрабатывать "анкор файл" из миллионов ссылок со скоростью выдачи серпа на запрос 1 сек? Причем все миллионы ссылок могут содержать запрос ("поиск", например, или авто, или "яндекс",..). Смотрите мое сообщение:
/ru/forum/comment/2112443
Я то уже объяснил :)
Теперь Ваша очередь.
Добрый день, pro-maker
1. Конечно попадет, а куда она денется, если ВИЦ надо регулярно считать и тошноту ссылочную.
2. Если есть 100000 ссылок с разными текстами и разным текстовым обрамлением вне ссылки, не думаете же Вы, что Яндекс будет 100000 раз проводить вычисления для каждой из этих ссылок НА ЛЕТУ(!!!)? Не логичнее ли выбрать с десяток самых жирных ссылок СРЕДИ ТЕХ, В КОТОРЫХ НАЙДЕН НА ЛЕТУ ЗАПРОС, и посчитать по ним, а вклад остальных 100000 ссылок учесть коэффициентами типа переданного ВИЦ и ссылочной тошноты?