Help! Чистка на дубли

12
business-net
На сайте с 02.08.2007
Offline
64
#11

Разве нельзя составить за один прогон всех 300к. некие хеши статей. Эти самые хеши записать в массив, вида: хеш#путь к файлу , дальше проверяем и удаляем все дубликаты по хешам, это будет намного быстрее чем сравнивать каждый файл со всеми по очереди.. можно еще разбить процесс сравнения на скажем 10 частей .. вариантов много.

и выйдет намного быстрее мне кажется.

Генератор проектов (http://gallsub.com). Мои скрипты (http://business-net.ru/script.html). Мой блог (http://business-net.ru). Мои услуги (http://business-net.ru/service.html)
stev
На сайте с 21.06.2009
Offline
151
#12

Дело говорите...

Палим приватные темы ➔ Slivup.Biz (http://goo.gl/Etp8gO) Прокси: 1 IP от 16 руб. 5 дней здесь (https://vk.cc/akA6wg).
leo3331
На сайте с 07.01.2007
Offline
154
#13

business-net, такая идея была в голове, но не хватило мозгов реализовать в реальность...

Очень-очень буду благодарен если объяснишь как реализовать такое :)

rasiell
На сайте с 16.02.2008
Offline
224
#14

business-net, хэши актуальны только если речь идет о обнаружении 100% схожести текстов, т.е. 100%-ых дублей, ТС же хочет учитывать и частичную схожесть/расхожесть

leo3331
На сайте с 07.01.2007
Offline
154
#15

rasiell,

business-net:
Разве нельзя составить за один прогон всех 300к. некие хеши статей.

Он в курсе что частично надо

rasiell
На сайте с 16.02.2008
Offline
224
#16

leo3331, вы хотите, составив хеши всех статей, сравнивать их и искать частичные совпадения текстов? Тогда, ИМХО, это не реально. Возможно я просто не слышал о неких видах хешей, в таком случае объясните пожалуйста.

Повторяю: с помощью хешей статей вы сможете отобрать только 100% уникальные статьи (при этом 100% уникальность будет обеспечиваться отличием в один символ). Такой код пишется на коленке 5 минут

leo3331
На сайте с 07.01.2007
Offline
154
#17

rasiell, хз мот не так понял, как высплюсь скажу точно 🚬

leo3331 добавил 07.11.2009 в 14:33

как я понял, заранее какие либо действия с базой статей сделать не получится

4arger
На сайте с 17.12.2008
Offline
95
#18

У меня вопрос. Вот эта программа не подходит для удаления дублей?

leo3331
На сайте с 07.01.2007
Offline
154
#19

подходит, то что надо

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий