Алгоритм поиска дублей статей

1 2345 6
ИМХО
На сайте с 05.01.2008
Offline
42
#31
Lvbnhbq:
Тут Вы 100% правы!
Имею сайт, с которго перепечатывают стати. С четким указанием автора. Т.е. стоят нормальные ссылки на первоисточник.
Хотя тематика очень конкурентная, но статьи пишутся так, что клонировать их почти невозможно. (как - секрет :))

Результат: сайты-ретрансляторы выстроенны в топе. Оригинал... ну, там... (надо бы ты-последний рифмованно переименовать ;))
Вот такое "наше все" россейского поискового сегмента.

Думаю за этот ваш секрет, если он работает, люди готовы заплатить хорошие деньги. И я пожалуй тоже.

А то нормально первоисточник определять, это да, с этим у яндекса пока проблемы.

ИМХО добавил 17.02.2008 в 18:49

(Goodwin), извините, спорить с вами на форуме больше нет сил.

Вы правы во многом насчет научности подхода, неприятия на веру голословных заявлений яндекса.

С уважением, Константин.
[Удален]
#32

😆

Нет, ну это великолепно...

Самое интересное, что никто ещё не привёл хотя бы одного недвусмысленного примера...

Lvbnhbq, Вы бы хоть ссылку показывали...

ИМХО, смотрите, специально для Вас...😆

наверно это мой рай

В строке поиска такое напишите...

Из песенки этой певички... Хотя, молодец деффка, штампует диски как надо.

Что мы там увидим?

Кучи перефразировок в блогах, вздохи-ахи, использование этой фразы всего лишь один раз, но среди них - бесконечные переписывалки-сайты текстов песен. Все-все-все. Это дубли? Или нечёткие дубли? Или как?

Даже если вывод сделать "по 50", эта Ваша магическая фраза-кнопка "Показать все без исключения" не обнаруживается и на ближайших пятнадцати страницах. А обнаруживается с тех страниц, которые вообще уже никак не относятся к словам из этой песенки. Далее - это дубли? Или нечёткие дубли? Или как?

А не кажется ли Вам, уважемый, что если бы отсеивались как раз эти Ваши "дубли", то текстовка как таковая, была бы представлена всего лишь один раз? Эту логику Вы не допускаете?

Вот Вы подумайте над этим хорошенько.

Е-маё, дубли-не дубли, чёткие-нечёткие, фильтры-не фильтры, песок-не песок...

Тут с индексом и кластеризацией-то явный расколбас.

Чистоты данных для какого-либо анализа вообще - НОЛЬ.

(GoodWin) добавил 18.02.2008 в 08:52

Lvbnhbq:
Хотя тематика очень конкурентная, но статьи пишутся так, что клонировать их почти невозможно. (как - секрет :))

😆

А я знаю как в алгоритмах Яндекса ранжируются сайты. Как - секрет.

А я знаю какие ближайшие планы у Яндекса по ссылочному. Какие - секрет.

А я вообще знаю как сделать себя во все топы. Как - секрет.

😆

Какое детство, а...

L
На сайте с 07.12.2005
Offline
105
#33
(GoodWin):
Нет, ну это великолепно...
Самое интересное, что никто ещё не привёл хотя бы одного недвусмысленного примера...

а зачем конкурентов вооружать? ;)

(GoodWin):


А не кажется ли Вам, уважемый, что если бы отсеивались как раз эти Ваши "дубли", то текстовка как таковая, была бы представлена всего лишь один раз? Эту логику Вы не допускаете?
Вот Вы подумайте над этим хорошенько.

Е-маё, дубли-не дубли, чёткие-нечёткие, фильтры-не фильтры, песок-не песок...
Тут с индексом и кластеризацией-то явный расколбас.
Чистоты данных для какого-либо анализа вообще - НОЛЬ.

Вообще-то Вы дали гениальный и чистейший материал для анализа.

Вот и подумайте, чем отличается "наверно это мой рай", от "кондиционеров".

Увидите - думаю, Вашего уважения разработчикам Яндекса поубавится.

(даю наводку - см. подпись:).)

(GoodWin):

Какое детство, а...

Дество, это когда на "слабо берут" :)

Dynamix
На сайте с 04.05.2007
Offline
155
#34

http://copyscape.com

вот лучшее решение, на мой взгляд

С
На сайте с 08.11.2006
Offline
97
#35

Подскажите пожалуйста, какие есть методы оценки работы рерайтера

а) Если известен первоисточник

б) Если не известен, или источников больше 2.

ЗЫ кроме copyscape.com

ЗЗЫ я делаю так: вбиваю в яндекс "кусочек текста", потом другой. но это имхо не эффективно.

ИМХО
На сайте с 05.01.2008
Offline
42
#36
Сухарев:
Подскажите пожалуйста, какие есть методы оценки работы рерайтера
а) Если известен первоисточник
б) Если не известен, или источников больше 2.

ЗЫ кроме copyscape.com

ЗЗЫ я делаю так: вбиваю в яндекс "кусочек текста", потом другой. но это имхо не эффективно.

Вот программа проверяющая их по технологии "шинглов", в точности как она описана Сегаловичем в исследовании. Хотя я конечно согласен с (Goodwin), что нет никаких оснований ей полностью доверять, проверяет она 2 текста на бытность нечеткими дублями лучше чем copyscape и ему подобные.

Сервер где она хранится в момент написания поста лежит, если так и не очнется, можете попробовать спросить в личку разработчика Hkey.

С
На сайте с 08.11.2006
Offline
97
#37
ИМХО:
Вот программа проверяющая их по технологии "шинглов", в точности как она описана Сегаловичем в исследовании. Хотя я конечно согласен с (Goodwin), что нет никаких оснований ей полностью доверять, проверяет она 2 текста на бытность нечеткими дублями лучше чем copyscape и ему подобные.

Сервер где она хранится в момент написания поста лежит, если так и не очнется, можете попробовать спросить в личку разработчика Hkey.

Спасибо! При сохранении проги оказалось, что на компе такая уже лежит ;)

[Удален]
#38

Ой, товарищи, ну чего спорить, а...

Сейчас не то что решения нет этой проблемы и задачи, - подхода-то к ней никакого ещё...

Не систематизированы сама природа, частные случаи, способы, цели появления изменённых текстов - давайте будем употреблять более приземлённый термин. Т.е., тексты, которые являются нечёткими дубликатами вследствие определённого осознанного действия.

И в масштабах Рунета это всё равно - такой небольшой процент... Явно только в коммерческих тематиках - причём в сезонно-динамических. Подумайте, нужно ли это Яндексу - лопатить практически каждый документ в поисках этих самых "дублей" и тратить такие ресурсы по времени и т.п....

Вспомните про систему обязательных пресс-релизов в новостной сфере, официальные юридические документы, все литературные тексты... Блин, такая огромная сфера...

Всё это вилами по воде.

P.S. И что, что там в "кондиционерах"? Может, хватит говорить намёками? Отличная выдача: по территории, общий список 50, Маркет, Директ - всё на месте, 50 образцовых сайтов, плюс все другие инструменты.

WU
На сайте с 07.10.2007
Offline
157
#39

Представляю сервис для пакетной оценки текстов на сходство между собой. Программа работает на основе шинглов. Это нужно для оценки работы рерайтеров. Можно приобрести тут себе данную программу без ограничений (но без нормализации) за $10.

Bor-ka
На сайте с 16.11.2004
Offline
201
#40

WSGU,

фигня какая то получается у Вас в сервисе.

Вот тексты:

Управление делами президента РФ приняло решение провести капитальный ремонт покрытия главной площади страны, укрепить ее основание и переложить брусчатку. В четверг стало известно о решении Управления делами президента РФ провести капитальный ремонт покрытия главной площади страны, укрепить ее основание и переложить брусчатку. "Там требуется капитальный ремонт, который никогда не проводился. Мы планируем сделать ремонт покрытия площади по современным технологиям", – выступил с заявлением в четверг менеджер делами президента Владимир Кожин, говорит "Интерфакс".

В научном сообществе этот проект не вызывает доверия: специалисты считают, что трогать Красную площадь нельзя, информирует "Газета.Ru".

Решение о капремонте Красной площади в аппарате президента приняли недавно: в начале данного года.

Как выступил с заявлением "Газете.Ru" историк архитектуры, вице-президент Академии художественной критики Алексей Клименко, инициатива кремлевского "завхоза" может закончиться катастрофой.

Со слов Клименко, замена покрытия Красной площади производилась относительно недавно (20–30 лет назад), и сейчас оно в ремонте не нуждается. Помимо того, согласно мнениям ученого, к Красной площади надо относиться, как "к неприкосновенной святыне», для которой возможны консервация и реставрация, но никак не коренная восстановление.

{end}

Управление делами президента рассказало, что уже в ближайшее время на Красной площади будет положена брусчатка.

Брусчатку, по которой столько раз проходили парадные полки и даже тяжелая бронетехника, еще ни разу капитально не ремонтировали. Правда, каждый год перед Днем Победы обновляли совсем уж ветхие элементы кладки.

Руководитель управления делами президента Владимир Кожин подчеркнул, что «Красной площади требуется капитальный ремонт, который там не проводился более 30 лет. Надеемся закончить работы в самый кратчайший срок, чтобы надолго не закрывать площадь для посетителей». По его словам, переоснащение поверхности будет проводиться по современным технологиям. Во-первых, сделают сильное основание для всей площади, и затем уже на него выложат свежую брусчатку.

Пока не ясно, когда и насколько перекроют главную площадь страны. Еще даже не проведен конкурс среди проектных институтов и подрядчиков.

Отметим, Красную площадь покрыли брусчаткой только в 30-х годах прошлого столетия. Торжественный и парадный внешний вид главная площадь страны приобрела вместе с мавзолеем Ленина. До середины XVIII столетия здесь торговали лавочники. На знаменитом лобном месте казнили опальных бояр и преступников. При Петре I тут воздвигли театр, а в конце XVII столетия по чистым четвергам даже массово стригли волосы. Масштабная восстановление площади была проведена в 1974 году, тогда всю брусчатку обновили, уложив на крепкое бетонное основание.

Статьи №1,№2 - 0%% - 0%%

А вот по моим расчетам:

Схожесть: 11.69%

Надо сделать людям доступным сервис, давно же обещал все таки.

Сервис полуавтоматического рерайта текста (http://topwriter.ru/)
1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий