алгоритм определения уникальности синонимизированных статей - существует ли? - Поисковые технологии - Практические вопросы оптимизации

106

KupluSsilki

27 ноября 2009, 17:15

3438

тут садовод в последнем интервью поведал, что задача распознавания синонимизированных статей "алгоритмически разрешима". прям так и сказал.. "алгоритмически разрешимая задача" говорит..

то же самое примерно говорили знаменитые дорвейщики - Монах и его друг там (не помню как зовут к сожалению) в интервью своих.. "не юзайте", говорят, "синонимизированные тексты, яндекс их палит. юзайте одинаковые тексты это лучше" типа.

так вот, вопрос, собственно, тем, кто рубит в алгоритмах чутка - каким образом задача такого рода может быть алгоритмически разрешима?

я лично не вижу никаких нормальных решений кроме попарного сравнения таких статей по длинным шинглам.

но комбинаторика - великая вещь, сейчас, думаю, каждый день генерируется гораздо больше статей, чем яндекс может прошерстить попарным сравнением: дело в том, что нагенерировать статей намного проще, чем произвести сравнение такого рода. генерация статей вида { | } почти не требует никаких ресурсов. а распознавание схожести по шинглам с попарным сравнением всех документов по рунету - жрёт ресурсы тока в путь, документов ведь миллионы, а шинглов и того больше..

садовский наврал?

бриллиантовые руки (http://www.forweb.ru/бриллиантовые_руки) не наш удел, у нас - деревянные )

10

Contentos

28 ноября 2009, 01:36

#1

KupluSsilki:
садовский наврал?

Почему же сразу наврал? :)

– Теоретически, алгоритмически разрешима?

– Разрешима.

Единственное, теория и практика, вещи разные. :)

0f3d3d

CR

198

CatRegist

28 ноября 2009, 01:50

#2

KupluSsilki:

так вот, вопрос, собственно, тем, кто рубит в алгоритмах чутка - каким образом задача такого рода может быть алгоритмически разрешима?

Сначала вкуриваем http://www.cir.ru/docs/ips/publications/2009_rcdl_markov.pdf, а потом понимаем насколько просты синонимы =) Скажу даже больше, определять синонимизированный контент (забыл добавить, что именно алгоритмически) могут даже простые смертные, вроди нас, а уж яндекс и подавно. Для этого не надо даже столь сложных вещей, как вычисление цепей Макарова, все гараздо проще, но принцепы чем то схожи.

С Уважением, Евгений

IF

150

InFlame

28 ноября 2009, 13:04

#3

Contentos:

Единственное, теория и практика, вещи разные.

Золотые слова :)

на прокси зарабатываю тут: https://goo.su/ZhNUUnG

8

Коляныч

28 ноября 2009, 17:41

#4

KupluSsilki:
садовский наврал?

не наврал а запутал. это его хлеб. :)

Белое SEO. Мод для регистрации в каталогах (17000 ед.), со скриптом для обратных ссылок, с отдельной страницей для каждой :). Плюсы: многопоточность (реком. 50-100), автораспознование капч! Реф. (http://www.botmasterru.com/product26417/) :)

SJ

78

sokol_jack

1 декабря 2009, 12:55

#5

Думал написать много умного текста, но потом решил просто дать ссылку на статью человека, который уже все что надо написал.

http://steelpear.com/internet/sinonimajzer-kaput/

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?

43

phoeeenix

1 декабря 2009, 17:52

#6

Я об этом как-то писал на маулнете

Анти SEO (http://anti-seo.ru/) // твиттер (http://twitter.com/arseny_info)

497

OPTIMER

1 декабря 2009, 19:33

#7

KupluSsilki,

KupluSsilki:
садовский наврал?

Он не наврал. Так и есть. У Роботов есть алгоритмы, позволяющие определять сабж.

оО Раскрутка сайтов без абон. платы, единоразово от 100.000 руб.

106

KupluSsilki

2 декабря 2009, 15:46

#8

OPTIMER:
KupluSsilki,
Он не наврал. Так и есть. У Роботов есть алгоритмы, позволяющие определять сабж.

алгоритмы-то есть, чё.. сравнивай попарно тексты в рунете, и ищи каждый заведомо неслучайный шингл (длиной пять например), вот тебе и весь алгоритм. :)

это будет кол-во страниц по рунету в квадрате, да помножить на сто строк длиной пять в рамках страницы.. :) т.е. 10E6*10E6*100=где-то десять в пятнадцатой степени строковых операций.

если на одно сравнение у нас уходит 0.01сек, всего суммарно для рунета имеем 275 миллионов лет работы на одной машине. :) но рунет постоянно растёт, а количество сравнений, соответственно, растёт экспоненциально там - с учётом прироста в 40%/год имеем около миллиарда лет попарных сравнений в следующем году. и где тут алгоритмическая разрешимость-то..

алгоритмическая разрешимость проблемы определения комбинаторных искусственных текстов существовала бы,

если бы существовал такой алгоритм, который может вычислять тексты-дубликаты быстрее, чем они появляются.

CR

198

CatRegist

2 декабря 2009, 15:54

#9

KupluSsilki:
но рунет постоянно растёт

Словарь великого, могучего то не растёт и синонимов больше не становится, как впрочем и комбинаций слов =)

106

KupluSsilki

2 декабря 2009, 16:29

#10

прочитал все статьи, всем кто запостил спасибо и + в овощ.

(статейки кстате так себе. курсач так ваще убожество. ну всё равно спасибо)

так вот, товарищи! :)

согласно любой из этих статей, тексты, написанные с использованием операторов вида { | }, распознать в один прогон нельзя, даже если привлечь на свою сторону всемогущую статистику -

при дополнительном условии, конечно, что таковые тексты грамотно написаны и грамотно размножены.

видимо, Де Сад имелл ввиду всего лишь тексты с синонимами, т.е. составленные прогами-синонимизаторами втупую.. и, видимо, по Зипфу их рубит - за счёт в первую очередь их неудобоваримости..

ну что ж, туда им и дорога, но это ведь сильно упрощённый подход к делу, товарищи. всё равно что заявлять типа:

мы умеем распознавать тексты вида "аа а ааааа а а ааа а ааа ааааа ааа а".

KupluSsilki добавил 02.12.2009 в 19:29

CatRegist:
Словарь великого, могучего то не растёт и синонимов больше не становится, как впрочем и комбинаций слов =)

гы, ты б ещё сказал - мол, "если всё в двоичный код перевести, то рунет это сплошные дубликаты - ведь кругом одни нули и единицы.. :)"

каждая статья это комбинация слов. каждая новая статья это новая комбинация слов.

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Что такое Power BI и зачем это нужно бизнесу

алгоритм определения уникальности синонимизированных статей - существует ли?