Начните с выборки в сотни тысяч слов см. Проводим несколько итераций, каждая из которых состоит из двух фаз максимизируется покрытие при фиксированном - Поисковые технологии

15

Eugen

7 августа 2006, 08:28

#21

!Иван FXS:
Методы будут разные - в зависимости от указанных акцентов.

Скажем так, как правило, существующие методы не варьируются от вышеназванных акцентов. Разве что есть варирование между между алгоритмами на "похожесть" и на "включение", но если говорить о "небольних изменениях", то класс методов один.

Eugen's blog (http://www.kochuev.com/)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

119

!Иван FXS

7 августа 2006, 09:15

#22

Странно ... если из одного документа вырезан "полезный контент" (отброшены хедеры-футеры), и вставлен внутрь другого документа (обвешан новыми хедерами-футерами), то "вес" общего для этих документов "полезного контента" вполне может быть не больше, чем "вес" окружающих "финтифлюшек" ...

А если - напротив - оба документа не содержат "финтифлюшек", но дублирование происходит с искажениями, то различия документов не могут быть велики. Иначе это уже не будет ДУБЛИРОВАНИЕ ...

E

15

Eugen

7 августа 2006, 20:21

#23

Если объем "финтифлюшек", как вы говорите, больше объема дублируемого текста, то вряд ли это можно назвать небольшими изменениями - сами подумайте ;) Если текст включается в другой текст, больший его по объему, то речь идет о включении(см. мое сообщение выше)

119

!Иван FXS

8 августа 2006, 03:02

#24

Правильно я понял Вас: "лента" из текстов, надерганных (точным копированием!) из разных мест - не является для Вас "дубликатом"?

404

Segey

8 августа 2006, 03:24

#25

!Иван FXS:
Это я к тому, что документ-то "нам дан" целиком - вместе с хедерами и футерами ...

ну не все стоит брать, только лишние заморочки. Там кроме баннеров, счетчиков, копирайтов, картинок и разметки мало что найдешь. Вообще непонимаю смысл мучать его и разбирать по полочкам?

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)

166

Pavel Medvedev

8 августа 2006, 04:41

#26

.............................

Консультирую по SEO. Опыт c 2005: окна топ1,Ашан,Фишки,Спортс и др. Пишите в FB.

I

80

iseg

11 августа 2006, 15:44

#27

Eugen:
Что же касается метода, преложенного Sergey Ilyinsky, Maxim Kuzmin, Alexander Melkov, Ilya Segalovich, то он заявлен как более быстрый и проще в реализации. Вот только не ясно, как же все-таки выбирать эти слова.
Есть 3 правила:
1. A set of words should cover the maximal possible amount of documents
2. The "quality" of a word in the sense described below should be the highest
3. The number of words in the set should be minimal
Но, к сожалению, конкретики это не прибавляет.

(в сторону: С.В. Ильинский - сын В.И.Левенштейна).

С позволения Сергея изложу кратко здесь.

Пусть "частота" это нормированная внутридокументная частота слова в документа (TF), лежащая в диапазоне 0..1, где 1 частота самого частого слова в документе.

Для каждого слова (однократно) строится распределение документов по такой внутридокументной "частоте".

Алгоритм составления лучшей выборки выглядит так.

Проводим несколько итераций, каждая из которых состоит из двух фаз (1) и (2).

В (1) максимизируется покрытие при фиксированной (ограниченной снизу) точности в (2) максимизируется точность при фиксированном покрытии.

Определим "точность" слова следующим образом: "точность" тем выше, чем меньше встречаемость слова "в дельте-окрестности данного значения частоты" (то есть чем меньше документов с TF равным TFthreshold+-delta). Частоту с наилучшей "точностью" мы называем пороговой и запоминаем для дальнейшего использования в алгоритме (см статью).

После каждой итерации отбрасываем самые "плохие" слова. После последней итерации оставляем достаточно слов для хорошего покрытия.

Этот метод, позволяет, начав с выборки в сотни тысяч слов (см, например, статьи ребят из AOL-а, которые на этом и остановились), оставить набор в 3-5 тысяч, расчет сигнатур по которому с применением полнотекстового индекса осуществляется на миллиардном индексе несколько минут (на нескольких машинах, естественно).

К большому сожалению это все еще нигде не изложено (нет времени), поэтому если будете использовать идею в статьях, просьба обязательно давать ссылку на Яндекс и С.В.Ильинского.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

80

iseg

11 августа 2006, 15:47

#28

Eugen:
контрольную сумму от строки из конкатенированных, отсортированных в определенном порядке - например, по алфавиту - слов из среднечастотников

AOL-овский алгоритм

I

64

itman

11 августа 2006, 15:55

#29

.. ...

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

170

Sonja

11 августа 2006, 16:29

#30

itman:
.. ...

Какая вакансия, если не секрет? 🙄 ;)

С уважением, Ольга Лебедева

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Дзен реализовал для авторов возможность вывода денег через СПБ

Алгоритмы определения нечетких дубликатов