Определение дубликатов

5

greaffon

23 октября 2007, 11:33

608

Добрый день, камрады

1.Позвольте спросить, что понимает команда яндекса под определением "нечеткий дубликат"?

2. Каким образом происходит как "склейка страниц"? Что стоит за этим процессом, и какие критерии используются при оценке дублей?

3. Последний вопрос, как реализован обсчет link popularity у Яндекса по сравнению с Гуглом?

328

K. Ermakov

24 октября 2007, 06:51

#1

greaffon, если осилите:

Методы определения нечетких дублей (pdf)

С уважением, Константин Ермаков, absite.ru: онлайн кроссворды (http://absite.ru/); searchsuggest.ru: поисковые подсказки доставляют (http://searchsuggest.ru/).

G

5

greaffon

25 октября 2007, 06:01

#2

Добрый день

Вот Вы господин модератор совершенно напрасно вопрос до конца не дочитали....

Теория шинглов - любопытное, но мне кажется не совсем эффективное решение... Если действительно компоратор поисковой машины выделяет дубли на основе этой незатейливой идеи, то возникает ряд несоответствий. Как же тогда собственно поступать с нечеткими дубликатами, возникающими по сути вещей - например срочные новости или аннонсы чего либо?

За ссылку спасибо

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

G

5

greaffon

25 октября 2007, 06:16

#3

Вы ужи извините, но хотел бы спросить я вот что - какие методы приемлемы для генерации рандомных текстов на естественном языке... Ту методику что использую я не всегда можно назвать эффективной, она в большей степени применима для низкочастотников, а при работе с большим количеством,назовем их гордым словом " уникальных статей" я столкнулся с рядом затруднений. Я использую компоратор, который некий господин анонсирует эквивалентным Я-кому,но в последние апы у меня стойкая увереность что существует несколько другая методика, более совершенная чем работа с шинглами или подбор хешей из вводных словаря....ВОт и хотел спросить у Вас собственно, что Вы знаете о подобном...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

328

K. Ermakov

25 октября 2007, 06:40

#4

greaffon:
Вот Вы господин модератор совершенно напрасно вопрос до конца не дочитали....
Теория шинглов - любопытное, но мне кажется не совсем эффективное решение...

Простите, какую часть вопроса, по-вашему, я не дочитал?

G

5

greaffon

25 октября 2007, 08:28

#5

Гм... видимо не поняли друг друга... что Вы знаете о системах "ГЕЯ"? Поделитесь опытом, если Вам не трудно... и вообще генерацией текстов в промышленных масштабах занимались? Поделитесь наблюдениями, в обмен на мои... Результаты моих экспериментов меня просто обескураживают, если честно....

Google тестирует панель управления Алгоритм Pigeon не влияет Джон Мюллер: не зацикливайтесь

328

K. Ermakov

26 октября 2007, 06:18

#6

greaffon, вам следовало более чётко сформулировать вопросы в самом начале темы. Если вам интересны методы определения дубликатов, которые использует Яндекс, приведённая мной ссылка вполне подходит для начала глубокого изучения вопроса.

Если же речь идёт о генерации тучи текстов, то это не ко мне вопрос, извините.

Что делать, если ваша email-рассылка попала в спам

Google: E-E-A-T не является фактором ранжирования