- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Разве нельзя составить за один прогон всех 300к. некие хеши статей. Эти самые хеши записать в массив, вида: хеш#путь к файлу , дальше проверяем и удаляем все дубликаты по хешам, это будет намного быстрее чем сравнивать каждый файл со всеми по очереди.. можно еще разбить процесс сравнения на скажем 10 частей .. вариантов много.
и выйдет намного быстрее мне кажется.
Дело говорите...
business-net, такая идея была в голове, но не хватило мозгов реализовать в реальность...
Очень-очень буду благодарен если объяснишь как реализовать такое :)
business-net, хэши актуальны только если речь идет о обнаружении 100% схожести текстов, т.е. 100%-ых дублей, ТС же хочет учитывать и частичную схожесть/расхожесть
rasiell,
Разве нельзя составить за один прогон всех 300к. некие хеши статей.
Он в курсе что частично надо
leo3331, вы хотите, составив хеши всех статей, сравнивать их и искать частичные совпадения текстов? Тогда, ИМХО, это не реально. Возможно я просто не слышал о неких видах хешей, в таком случае объясните пожалуйста.
Повторяю: с помощью хешей статей вы сможете отобрать только 100% уникальные статьи (при этом 100% уникальность будет обеспечиваться отличием в один символ). Такой код пишется на коленке 5 минут
rasiell, хз мот не так понял, как высплюсь скажу точно 🚬
leo3331 добавил 07.11.2009 в 14:33
как я понял, заранее какие либо действия с базой статей сделать не получится
У меня вопрос. Вот эта программа не подходит для удаления дублей?
подходит, то что надо