Миныч

Миныч
Рейтинг
14
Регистрация
20.05.2006
Должность
Уже и не знаю, что сказать :)
Интересы
Велосипед, Море, Горы

Варианты:

1. Глюкнулся обратный индекс (по слову "Сейшелы" нет ссылки на морду романтики).

2. Отсев дублей кусков текста. Фантастический алгоритм: из всех дублей на странице отбирается самое репрезентативное слово и исключается из обратного индекса (не из сохраненной копии).

Слово "Сейшелы" из обратного индекса исключено:

http://www.yandex.ru/yandsearch?text=%28%D2%F3%F0%FB+%2F%2B1+%ED%E0+%2F%2B1+-%D1%E5%E9%F8%E5%EB%FB++%2F%2B1++%CE%F2%E4%FB%F5%29+%3C%3Curl%3D%22www.romanticflyers.ru%22

http://hghltd.yandex.com/yandbtm?url=http%3A%2F%2Fwww.romanticflyers.ru%2F&text=%D1%E5%E9%F8%E5%EB%FB&reqtext=%D1%E5%E9%F8%E5%EB%FB%3A%3A1819103916&dsn=0&d=7202410&sh=5&sg=36&isu=1

Люблю цифры.

Посмотрим по сайту "Сейшелы":

http://www.yandex.ru/yandsearch?text=%D1%E5%E9%F8%E5%EB%FB&pag=u&surl=romanticflyers.ru&

Из 9!!! показанных результатов СЕМЬ!!! имеют одинаковый тайтл.

И "найденных страниц" всего 10.

Нажимаем показать все:

http://www.yandex.ru/yandsearch?surl=romanticflyers.ru&pag=u&text=%D1%E5%E9%F8%E5%EB%FB&rd=0

И вылезает цифра в 1000 с лишним.

"Романтическая" морда наименее содержательная по контенту в смысле "Сейшелы" и вылазит из фильтра дубликатов только за счет контента ссылок на нее.

Для тех кто не в теме: не дубликатов СТРАНИЦ, а дубликатов НАЙДЕННОГО КОНТЕКСТА.

pro-maker:
Игорь, не понимаю о чем Вы. О каких дубликатах?
pro-maker:
По запросу "Сейшелы" www.romanticflyers.ru на 2-ой позиции. Смотрим его

Я посмотрел не его тайтл, а длинную строку в теле:

"экзотические острова (Мальдивы, Сейшелы, Бали, Маврикий, Таити)"

http://www.yandex.ru/yandsearch?text=%22%FD%EA%E7%EE%F2%E8%F7%E5%F1%EA%E8%E5%20%EE%F1%F2%F0%EE%E2%E0%20(%CC%E0%EB%FC%E4%E8%E2%FB%2C%20%D1%E5%E9%F8%E5%EB%FB%2C%20%C1%E0%EB%E8%2C%20%CC%E0%E2%F0%E8%EA%E8%E9%2C%20%D2%E0%E8%F2%E8)%22&rd=0

Яндекс отрабатывает свой алгоритм отсева дублей "НА ЛЕТУ".

Количество дублей, которые он оставляет, ограничено, я неспроста над цифиркой 7 посмеялся :)

Для "Сейшелы" на странице оказалось слишком много стибренных один в один предложений, поэтому отфильтрованы все.

Для "Туры на" процент "греха" оказался меньше и "Туры на" не отфильтрованы.

А сниппеты ли считаются "найденным контекстом", или предложения, или метатеги, или шинглы ,или еще что, то это может быть и тем и другим и третьим и меняться от ноги разработчика, с которой он встал утром.

Еще один вариант: фильтрация ЗЮЗИКОВ (вес сейшел очень большой).

pro-maker:
Теперь согласны, что "сейшелы" не ищутся в контенте морды romanticflyers.ru?

pro-maker, не согласны :)

Они "ищутся", но отсеиваются как дубли найденного контекста. Опять в Яндексе команда разработчиков отсева "найденных" дублей и команда разработчиков выдачи подсветки вразнобой работают. Растет Яндекс командами :)

Правая команда часто не знает, что делает левая :)

Зато для нас ПОКА(!!!) очень удобный инструмент для анализа как Яндекс отсеивает дубли :)

Начинаем отсчет времени реакции Яндекса. Когда он убъет такую подсветку :)

Как образец "из сейшел", откуда ноги растут:

http://www.yandex.ru/yandsearch?text=%22%FD%EA%E7%EE%F2%E8%F7%E5%F1%EA%E8%E5%20%EE%F1%F2%F0%EE%E2%E0%20(%CC%E0%EB%FC%E4%E8%E2%FB%2C%20%D1%E5%E9%F8%E5%EB%FB%2C%20%C1%E0%EB%E8%2C%20%CC%E0%E2%F0%E8%EA%E8%E9%2C%20%D2%E0%E8%F2%E8)%22&rd=0

и сайта "второй позиции" (_romanticflyers.ru) нет.

Кстати, смотрим на таинственное число семь в числе найденного :)

zzzzz:
2$ с копейками, уже не помню точно, ипотечная тематика

Яндекс Директ 65 рублей ключевик ипотека (контекст), но это вывих, средняя температура по больнице в 7 раз ниже.

Lotoss, подумайте, кому из Яндекса (да и из нас) захочется с Вами разбираться, если в Вашем коде есть такие штучки дрючки:

style="display:none; position:absolute; height:100%; width:100%; left:0; top:0; z-index:11110; background-image:

style="display:none; width:300; z-index:11111; position:relative;"

и так далее...

wolf:
А зачем там содержать миллионы записей? Миллион уникальных анкоров вряд ли отыщется для какого-либо документа. В анкор-файл можно складывать только уникальные анкоры, и для каждого просто хранить вес как взвешенную сумму ссылочных весов доноров, его содержащих. Опять же, много чего можно отфильровать на этапе формирования анкор-файла. Не думаю, что в таком случае среднестатистический анкор-файл окажется многим больше среднестатистического документа.

Такой взгляд на вещи очень не разумен и навряд ли выдержит серьезную критику.

Утрируя: например есть 30000 страниц с разными ВИЦ, тошнотами, числом ссылок на странице с текстами ссылок типа "комп айди гениус цена 13 рябчиков", либо "книжка такая сякая исбн номер такой". Как сделать быстро расчет на запрос "книжка" или "комп"? А если запрос будет "книжка" ИЛИ "комп"?

Число уникальных анкоров может все равно быть огромным, а тем более комбинаций этих анкоров. И все это считать на лету?

Про то СКОЛЬКО жирных ссылок учитывается (1, 2, 12, 15,...) и есть ли там группировки я пока помолчу :)

wolf:
Да и тошнота ссылочная, судя по всему, у Вас подразумевается зависящей от общего числа входящих ссылок, не зависимо учитываются ли их анкоры в ссылочном или нет?

wolf, Скорее всего, Вы меня переоцениваете :)

wolf, ну подумайте, как Яндекс будет обрабатывать "анкор файл" из миллионов ссылок со скоростью выдачи серпа на запрос 1 сек? Причем все миллионы ссылок могут содержать запрос ("поиск", например, или авто, или "яндекс",..). Смотрите мое сообщение:

/ru/forum/comment/2112443

XTR:
Хорошо, допустим. Тогда, чем вы объясните такое падение?

Я то уже объяснил :)

Теперь Ваша очередь.

pro-maker:
Похоже, либо Вы не поняли Вольфа, либо я не понимаю Вас. Хотите сказать, что в анкор-файл реципиента попадет ссылка с 20 доноров одного и того же домена?

Добрый день, pro-maker

1. Конечно попадет, а куда она денется, если ВИЦ надо регулярно считать и тошноту ссылочную.

2. Если есть 100000 ссылок с разными текстами и разным текстовым обрамлением вне ссылки, не думаете же Вы, что Яндекс будет 100000 раз проводить вычисления для каждой из этих ссылок НА ЛЕТУ(!!!)? Не логичнее ли выбрать с десяток самых жирных ссылок СРЕДИ ТЕХ, В КОТОРЫХ НАЙДЕН НА ЛЕТУ ЗАПРОС, и посчитать по ним, а вклад остальных 100000 ссылок учесть коэффициентами типа переданного ВИЦ и ссылочной тошноты?

pro-maker:
Думаю, что логичнее зафильтровать и вИЦ, и ссылочное для сквозняков.
Не очень логично. Как пример phpbb чем заслужило такую участь? Или ссылки в меню?
Всего: 130