Комментарии - Тимон - Профиль вебмастера - Форум об интернет-маркетинге

7 декабря 2007, 14:51

wolf:
... Но есть корень или нет - не суть важно, важно используется ли вообще понятие частотности самого частотного термина (или количества ссылок с самых частотным термином, что строго говоря - несколько другая величина) в качестве нормировки по анкор-файлу.

Я уже как-то касался этой темы - /ru/forum/166028

Так до сих пор и не понял, что стало причиной. Может и правда "тошнота"

Плохие, очень плохие анкоры

7 декабря 2007, 12:45

wolf:
Под тошнотой Вы подразумеваете частоту самого частотного термина? Что-то не припомню такого у Миныча и Ко.

Да, только у них фигурировало количество ссылок с самым часто встречаемым словом, а не просто количество самого часто встречаемого слова в текстах всех ссылок.

Вроде так.

Если нет - поправьте, сам этим не занимался, говорю по памяти.

Плохие, очень плохие анкоры

7 декабря 2007, 12:41

upyrj:
Тимон, это ж просто праздник какой-то!

Пусть у нас есть такой анкор-лист (100 анкоров):

25 www.kontora.ru
...
1 Клевый сайт

В знаменателе тогда оказывается число слов «кондиционеры» (55), так? То есть для запроса «оконные кондиционеры» (11 вхождений) этот анкор-лист бесперспективен?

Получается, что так. Вроде от этом уже говорили и не раз...

С другой стороны, обнаружил, что все-таки и для ссылок квадратный корень.

Плохие, очень плохие анкоры

7 декабря 2007, 09:20

upyrj:
Присоединяюсь к вопросу Сергея.
Расскажите уж наконец кто-нибудь, как эта самая тошнота считается.
Ну или хотя бы намекните. 8)

Ну если в текстовой релевантности тошнота находится в знаменателе, причем под квадратным корнем, то при подсчете тошноты анкор-файла, вроде как тоже в знаменателе, только корня квадратного нет.

Не мои догадки, ХРНС в свое время писал или даже еще раньше сам Миныч.

Проверка весов (обратных частот терминов)

6 декабря 2007, 08:30

wolf:
А для того, чтоб сделать выводы, совсем необязательно покупать ссылки. Всё в СЕРПе, как на ладони.

Оффтопно: renins по осаго - поизучал бэки, интересно... выбивается из общей канвы... Не знаю, правда, может Yazzle не нашел новые бэки 😕

Проверка весов (обратных частот терминов)

4 декабря 2007, 12:36

ramax:
А как вы вычисляете вес с помощью этих запросов ?

Данные запросы показывают границу кворума - при одном запросе сайты есть в выдаче, при другом нет. Далее по формуле кворума вычисляем вес первого слова.

Читайте Миныча и мастер-классы на seonews.ru!

🚬

Проверка весов (обратных частот терминов)

4 декабря 2007, 11:22

cymax:
Ну, предлоги/союзы встречаются во многих запросах, не только в крылатых выражениях. А ваш пример не очень удачный, "ни" здесь не стоп-слово, ни в рыбе, ни в мясе ;)

ну я с потолка выражение взял, для примера. Тем более, раз переколдовка поменялась, может и поменялись принципы обнуления весов стоп-слов

Проверка весов (обратных частот терминов)

4 декабря 2007, 09:56

cymax:
Назначение нулевого веса - это искусственно. Колдунщик так делает, когда решает, что стоп-слово следует игнорировать. Но он не всегда так оделает - все зависит от запроса.

Обычно, он не обнуляет веса стоп-словам, когда они встречаются в крылатых выражениях, например, "ни рыба ни мясо"

Проверка весов (обратных частот терминов)

4 декабря 2007, 09:50

Однако респект вам!

Попроверял...

Сервис выдал для lumix - 358683

Проверил через Яндекс

(lumix &/(1 1) капуста::255)//6

(lumix &/(1 1) капуста::260)//6

Точняк совпадение! По единичке уже не стал подбирать...

---------------

Далее сервис насчитал для nikon - 50912

(nikon &/(1 1) капуста::36)//6

(nikon &/(1 1) капуста::37)//6

Один в один!

Долго же вы так Яндекс долбили? ;)

Принципы определение текста неуникальным

3 декабря 2007, 15:26

Вот, можете почитать здесь :) http://www.seonews.ru/masterclass/85/

Так сказать, для начинающих...

А вообще, читайте:

Порождение кластеров документов-дубликатов подход, основанный на поиске частых замкнутых множеств признаков
Winnowing Local Algorithms for Document Fingerprinting
Finding similar files in a large file system
Эффективный способ обнаружения дубликатов web документов с использованием инвертированного индекса
Detection Mechanisms for Digital Documents
Detecting NearDuplicates for Web Crawling
COPY DETECTION SYSTEMS FOR DIGITAL DOCUMENTS
Collection Statistics for Fast Duplicate Document Detection

Все документы есть в .pdf, ищите!

Удачи ;)

Open AI тестирует память для ChatGPT

Что делать, если ваша email-рассылка попала в спам

Тимон