Прога расчета схожести текстов (дублей) - Бесплатно!

123 4
Hkey
На сайте с 30.09.2006
Offline
222
#11
MASe:
чего то я не понял... нажимаю на кнопку "compare" - и.... тишина....

Там должен процент сходства отображаться.

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))
MASe
На сайте с 17.09.2002
Offline
219
#12
Hkey:
Там должен процент сходства отображаться.

это я понял... ступил в другом - просто 0% смутило... вот я и подумал, что не работает... потом вставил какую-то абракадабру и понял - работает...

а тестировал и сравнивал описания, которые я приготовил для одного из сайто для прогона по каталогам...

делаю вывод - хорошо подготовил, если 0% схожести то ;-), молодец я...

и еще по юзабилити...

у меня почему то текст из блокнота всталяется кракозябрами :-(

из ЭдитПлюс - нормально...

не очень удобно...

Only God Can Judge Me... Nobody Else... Дрезна (http://www.drezna.ru/) Помощники: Sape (http://www.sape.ru/r.167724536c.php)
N
На сайте с 18.05.2003
Offline
100
#13
Навигатор:
Попробовал несколько размноженных статей с помощью своего скрипта - показывает максимум 8%. А чаще 3-4 %. Объективно, конечно, статьи более похожи.

Насколько я понимаю, должно быть 0%. 10% - это показатель, что яндекс (почти) наверняка посчитает текст дублем.

Но... Насколько я понял, зимой они поставили другой алгоритм отлова дублей, по сравнению с тем, что описывалось раньше. Я подозреваю, что толи они нашли красивое решение ... Толи они нашли некрасивое решение, выдвигая гипотезу, что на дубли надо сравнивать не весь веб, а только его выборку по определенным параметрам, например, коллекцию документов, сидящую на одном ИП, или на доменах, принадлежащих одному лицу, или какие-то комбинации этих факторов.

Hkey
На сайте с 30.09.2006
Offline
222
#14
Newm:
Насколько я понимаю, должно быть 0%. 10% - это показатель, что яндекс (почти) наверняка посчитает текст дублем.

Но... Насколько я понял, зимой они поставили другой алгоритм отлова дублей, по сравнению с тем, что описывалось раньше. Я подозреваю, что толи они нашли красивое решение ... Толи они нашли некрасивое решение, выдвигая гипотезу, что на дубли надо сравнивать не весь веб, а только его выборку по определенным параметрам, например, коллекцию документов, сидящую на одном ИП, или на доменах, принадлежащих одному лицу, или какие-то комбинации этих факторов.

10% - может быть цитирование одного документа другим. 30-40% думаю допустимо. Я писал, что по шинглам сравнить весь рунет каждый с каждым нельзя. Шинглы - самя жесткая проверка на склейку.

N
На сайте с 18.05.2003
Offline
100
#15
Hkey:
10% - может быть цитирование одного документа другим. 30-40% думаю допустимо. Я писал, что по шинглам сравнить весь рунет каждый с каждым нельзя. Шинглы - самя жесткая проверка на склейку.

Что-то меня сомнения берут по этой фразе...

Точнее что-то меня сомнения стали брать, что вы понимаете, КАК это делает яндекс.

Насколько Я понимаю, он строит шинглы, а в базу пихает каждый 10-й из них. Как только в базу пытается добавиться шингл, который там есть, странички ставятся на "дополнительное обследоваение" (с января 2007, а может несколько раньше). А вот что такое "дополнительное обследование" - вот по поводу этого у меня и возникают вопросы. Какое решение в яндексе умудрились найти...

Hkey
На сайте с 30.09.2006
Offline
222
#16
Newm:
Что-то меня сомнения берут по этой фразе...
Точнее что-то меня сомнения стали брать, что вы понимаете, КАК это делает яндекс.

Насколько Я понимаю, он строит шинглы, а в базу пихает каждый 10-й из них. Как только в базу пытается добавиться шингл, который там есть, странички ставятся на "дополнительное обследоваение" (с января 2007, а может несколько раньше). А вот что такое "дополнительное обследование" - вот по поводу этого у меня и возникают вопросы. Какое решение в яндексе умудрились найти...

Яша не скрывает Алгоритм - он был придуман не Яндексом.

Береться 85 случайных фиксированных функций и запоминаеться их максимум. Потом максимумы сравниваються. Всего 85 сравнений. Почитайте на сайте Яши статьи.

N
На сайте с 18.05.2003
Offline
100
#17

Hkey, только там нигде не говорится, что это актуальные статьи.

До осени прошлого года результаты моих экспериментов и то, что написано в этих статьях, практически совпадали. А вот свежак - это уже что-то новенькое. Или кардинально улучшенное старенькое. Или на порядок увеличенное число серверов для обработки (хотя что-то в это я мало верю).

Hkey
На сайте с 30.09.2006
Offline
222
#18

Работал как то с примерно таким алгоритмом (для других но аналогичных целей). В нем для борьбы с синомайзингом можно сделать окно.

1 2 3 4 5 _ _ _ _ 10 11 12 13 14

Hkey
На сайте с 30.09.2006
Offline
222
#19

и еще даже если классические шинглы есть - то они ведут себя ни по равномерному распределению, а по нормальному. Т.е. если есть шингл_А есть в обоих текстах, то вероятность поподания его контрольной суммы в обе выборки по одной и той же фиксированной функции, намного выше 1/N1 * 1/N2.

Если не понятно почему могу обьяснить.

Hkey
На сайте с 30.09.2006
Offline
222
#20
Навигатор:
Попробовал несколько размноженных статей с помощью своего скрипта - показывает максимум 8%. А чаще 3-4 %. Объективно, конечно, статьи более похожи.

Резюме: текущая версия - это меньше 1% работы, которую нужно проделать, чтоб стать эталонным измерителем уникальности текстов.
Пока нету синонимов и словоформ - грош цена программе.

А то, что вы так красиво и умно описывали в начале топика - не более чем пудра в глаза оптимизаторам. Все это легко напишет обычный студент за полдня.

З.Ы.: программа нужная и желаю вам успехов в разработке; поменьше пустословия и высокомерия - а то как депутат перед народом.

Ну процент изменений в основном зависит от колличества слов базы, а не от самого скрипта (самы простой скрипт пишеться за 20 минут). Главная фишка сочитание эфекта и качества конечного текста.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий