Определение дубликатов

G
На сайте с 26.05.2007
Offline
5
602

Добрый день, камрады

1.Позвольте спросить, что понимает команда яндекса под определением "нечеткий дубликат"?

2. Каким образом происходит как "склейка страниц"? Что стоит за этим процессом, и какие критерии используются при оценке дублей?

3. Последний вопрос, как реализован обсчет link popularity у Яндекса по сравнению с Гуглом?

K. Ermakov
На сайте с 10.12.2004
Offline
328
#1
С уважением, Константин Ермаков, absite.ru: онлайн кроссворды (http://absite.ru/); searchsuggest.ru: поисковые подсказки доставляют (http://searchsuggest.ru/).
G
На сайте с 26.05.2007
Offline
5
#2

Добрый день

Вот Вы господин модератор совершенно напрасно вопрос до конца не дочитали....

Теория шинглов - любопытное, но мне кажется не совсем эффективное решение... Если действительно компоратор поисковой машины выделяет дубли на основе этой незатейливой идеи, то возникает ряд несоответствий. Как же тогда собственно поступать с нечеткими дубликатами, возникающими по сути вещей - например срочные новости или аннонсы чего либо?

За ссылку спасибо

G
На сайте с 26.05.2007
Offline
5
#3

Вы ужи извините, но хотел бы спросить я вот что - какие методы приемлемы для генерации рандомных текстов на естественном языке... Ту методику что использую я не всегда можно назвать эффективной, она в большей степени применима для низкочастотников, а при работе с большим количеством,назовем их гордым словом " уникальных статей" я столкнулся с рядом затруднений. Я использую компоратор, который некий господин анонсирует эквивалентным Я-кому,но в последние апы у меня стойкая увереность что существует несколько другая методика, более совершенная чем работа с шинглами или подбор хешей из вводных словаря....ВОт и хотел спросить у Вас собственно, что Вы знаете о подобном...

K. Ermakov
На сайте с 10.12.2004
Offline
328
#4
greaffon:
Вот Вы господин модератор совершенно напрасно вопрос до конца не дочитали....
Теория шинглов - любопытное, но мне кажется не совсем эффективное решение...

Простите, какую часть вопроса, по-вашему, я не дочитал?

G
На сайте с 26.05.2007
Offline
5
#5

Гм... видимо не поняли друг друга... что Вы знаете о системах "ГЕЯ"? Поделитесь опытом, если Вам не трудно... и вообще генерацией текстов в промышленных масштабах занимались? Поделитесь наблюдениями, в обмен на мои... Результаты моих экспериментов меня просто обескураживают, если честно....

K. Ermakov
На сайте с 10.12.2004
Offline
328
#6

greaffon, вам следовало более чётко сформулировать вопросы в самом начале темы. Если вам интересны методы определения дубликатов, которые использует Яндекс, приведённая мной ссылка вполне подходит для начала глубокого изучения вопроса.

Если же речь идёт о генерации тучи текстов, то это не ко мне вопрос, извините.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий