Help! Чистка на дубли

leo3331 · 2009-11-07T03:24:47.0000000Z

Здравствуйте. Есть база из 300к статей. Каким способом в крадчайшие сроки можно почистить эти тексты на дубли? если перебирать и проверять каждую статью попарно то это ваще ппц, 6к статей проверяет на пхп под денвером трое суток... проверка идет так: 1 с 2 1 с 3 и так до .... 1 с 6000 , если первая статья похожая с какой либо другой больше чем на 10% к примеру, то первая статья удаляется и дальше проверяется вторая статья со всеми остальными, кроме первой..... затем третья со всеми, кроме 2 и 1 и т.д. пока все не проверятся... Как думаете как можно упростить задачу? P.S. Нужно проверить на дубли все 300к статей... leo3331 добавил 07.11.2009 в 06:25 Проверяю методом шинглов, длиной в 3 слова leo3331 добавил 07.11.2009 в 06:27 Может существенно как то можно упростить проверку всей базы перед началом проверки? статьи в тхт файлах 300к файлов всего

64

business-net

7 ноября 2009, 08:56

#11

Разве нельзя составить за один прогон всех 300к. некие хеши статей. Эти самые хеши записать в массив, вида: хеш#путь к файлу , дальше проверяем и удаляем все дубликаты по хешам, это будет намного быстрее чем сравнивать каждый файл со всеми по очереди.. можно еще разбить процесс сравнения на скажем 10 частей .. вариантов много.

и выйдет намного быстрее мне кажется.

Генератор проектов (http://gallsub.com). Мои скрипты (http://business-net.ru/script.html). Мой блог (http://business-net.ru). Мои услуги (http://business-net.ru/service.html)

Google: сканирование не зависит Google: у нас нет include в php большого

151

stev

7 ноября 2009, 09:13

#12

Дело говорите...

Палим приватные темы ➔ Slivup.Biz (http://goo.gl/Etp8gO) Прокси: 1 IP от 16 руб. 5 дней здесь (https://vk.cc/akA6wg).

154

leo3331

7 ноября 2009, 10:04

#13

business-net, такая идея была в голове, но не хватило мозгов реализовать в реальность...

Очень-очень буду благодарен если объяснишь как реализовать такое :)

224

rasiell

7 ноября 2009, 10:22

#14

business-net, хэши актуальны только если речь идет о обнаружении 100% схожести текстов, т.е. 100%-ых дублей, ТС же хочет учитывать и частичную схожесть/расхожесть

154

leo3331

7 ноября 2009, 10:58

#15

rasiell,

business-net:
Разве нельзя составить за один прогон всех 300к. некие хеши статей.

Он в курсе что частично надо

224

rasiell

7 ноября 2009, 11:19

#16

leo3331, вы хотите, составив хеши всех статей, сравнивать их и искать частичные совпадения текстов? Тогда, ИМХО, это не реально. Возможно я просто не слышал о неких видах хешей, в таком случае объясните пожалуйста.

Повторяю: с помощью хешей статей вы сможете отобрать только 100% уникальные статьи (при этом 100% уникальность будет обеспечиваться отличием в один символ). Такой код пишется на коленке 5 минут

154

leo3331

7 ноября 2009, 11:32

#17

rasiell, хз мот не так понял, как высплюсь скажу точно 🚬

leo3331 добавил 07.11.2009 в 14:33

как я понял, заранее какие либо действия с базой статей сделать не получится

95

4arger

7 ноября 2009, 11:46

#18

У меня вопрос. Вот эта программа не подходит для удаления дублей?

154

leo3331

7 ноября 2009, 11:49

#19

подходит, то что надо

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Что делать, если ваша email-рассылка попала в спам