- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Разве нельзя составить за один прогон всех 300к. некие хеши статей. Эти самые хеши записать в массив, вида: хеш#путь к файлу , дальше проверяем и удаляем все дубликаты по хешам, это будет намного быстрее чем сравнивать каждый файл со всеми по очереди.. можно еще разбить процесс сравнения на скажем 10 частей .. вариантов много.
и выйдет намного быстрее мне кажется.
Дело говорите...
business-net, такая идея была в голове, но не хватило мозгов реализовать в реальность...
Очень-очень буду благодарен если объяснишь как реализовать такое :)
business-net, хэши актуальны только если речь идет о обнаружении 100% схожести текстов, т.е. 100%-ых дублей, ТС же хочет учитывать и частичную схожесть/расхожесть
rasiell,
Разве нельзя составить за один прогон всех 300к. некие хеши статей.
Он в курсе что частично надо
leo3331, вы хотите, составив хеши всех статей, сравнивать их и искать частичные совпадения текстов? Тогда, ИМХО, это не реально. Возможно я просто не слышал о неких видах хешей, в таком случае объясните пожалуйста.
Повторяю: с помощью хешей статей вы сможете отобрать только 100% уникальные статьи (при этом 100% уникальность будет обеспечиваться отличием в один символ). Такой код пишется на коленке 5 минут
rasiell, хз мот не так понял, как высплюсь скажу точно 🚬
leo3331 добавил 07.11.2009 в 14:33
как я понял, заранее какие либо действия с базой статей сделать не получится
У меня вопрос. Вот эта программа не подходит для удаления дублей?
подходит, то что надо