Тимон

Тимон
Рейтинг
74
Регистрация
08.06.2007
wolf:
... Но есть корень или нет - не суть важно, важно используется ли вообще понятие частотности самого частотного термина (или количества ссылок с самых частотным термином, что строго говоря - несколько другая величина) в качестве нормировки по анкор-файлу.

Я уже как-то касался этой темы - /ru/forum/166028

Так до сих пор и не понял, что стало причиной. Может и правда "тошнота"

wolf:
Под тошнотой Вы подразумеваете частоту самого частотного термина? Что-то не припомню такого у Миныча и Ко.

Да, только у них фигурировало количество ссылок с самым часто встречаемым словом, а не просто количество самого часто встречаемого слова в текстах всех ссылок.

Вроде так.

Если нет - поправьте, сам этим не занимался, говорю по памяти.

upyrj:
Тимон, это ж просто праздник какой-то!

Пусть у нас есть такой анкор-лист (100 анкоров):

25 www.kontora.ru
...
1 Клевый сайт

В знаменателе тогда оказывается число слов «кондиционеры» (55), так? То есть для запроса «оконные кондиционеры» (11 вхождений) этот анкор-лист бесперспективен?

Получается, что так. Вроде от этом уже говорили и не раз...

/ru/forum/46953

/ru/forum/98598

/ru/forum/85181

/ru/forum/91478

С другой стороны, обнаружил, что все-таки и для ссылок квадратный корень.

upyrj:
Присоединяюсь к вопросу Сергея.
Расскажите уж наконец кто-нибудь, как эта самая тошнота считается.
Ну или хотя бы намекните. 8)

Ну если в текстовой релевантности тошнота находится в знаменателе, причем под квадратным корнем, то при подсчете тошноты анкор-файла, вроде как тоже в знаменателе, только корня квадратного нет.

Не мои догадки, ХРНС в свое время писал или даже еще раньше сам Миныч.

wolf:
А для того, чтоб сделать выводы, совсем необязательно покупать ссылки. Всё в СЕРПе, как на ладони.

Оффтопно: renins по осаго - поизучал бэки, интересно... выбивается из общей канвы... Не знаю, правда, может Yazzle не нашел новые бэки 😕

ramax:
А как вы вычисляете вес с помощью этих запросов ?

Данные запросы показывают границу кворума - при одном запросе сайты есть в выдаче, при другом нет. Далее по формуле кворума вычисляем вес первого слова.

Читайте Миныча и мастер-классы на seonews.ru!

🚬

cymax:
Ну, предлоги/союзы встречаются во многих запросах, не только в крылатых выражениях. А ваш пример не очень удачный, "ни" здесь не стоп-слово, ни в рыбе, ни в мясе ;)

ну я с потолка выражение взял, для примера. Тем более, раз переколдовка поменялась, может и поменялись принципы обнуления весов стоп-слов

cymax:
Назначение нулевого веса - это искусственно. Колдунщик так делает, когда решает, что стоп-слово следует игнорировать. Но он не всегда так оделает - все зависит от запроса.

Обычно, он не обнуляет веса стоп-словам, когда они встречаются в крылатых выражениях, например, "ни рыба ни мясо"

Однако респект вам!

Попроверял...

Сервис выдал для lumix - 358683

Проверил через Яндекс

(lumix &/(1 1) капуста::255)//6

(lumix &/(1 1) капуста::260)//6

Точняк совпадение! По единичке уже не стал подбирать...

---------------

Далее сервис насчитал для nikon - 50912

(nikon &/(1 1) капуста::36)//6

(nikon &/(1 1) капуста::37)//6

Один в один!

Долго же вы так Яндекс долбили? ;)

Вот, можете почитать здесь :) http://www.seonews.ru/masterclass/85/

Так сказать, для начинающих...

А вообще, читайте:

  • Порождение кластеров документов-дубликатов подход, основанный на поиске частых замкнутых множеств признаков
  • Winnowing Local Algorithms for Document Fingerprinting
  • Finding similar files in a large file system
  • Эффективный способ обнаружения дубликатов web документов с использованием инвертированного индекса
  • Detection Mechanisms for Digital Documents
  • Detecting NearDuplicates for Web Crawling
  • COPY DETECTION SYSTEMS FOR DIGITAL DOCUMENTS
  • Collection Statistics for Fast Duplicate Document Detection

Все документы есть в .pdf, ищите!

Удачи ;)

Всего: 265