Чистка болшого кол-ва урлов (> 1 млн.)

HL
На сайте с 12.12.2012
Offline
118
1026

Коллеги, доброго времени суток. Имеются 2 txt файла с адресами сайтов. Оба порядка 1 миллиона урлов. Назовем их условно white и black list. Мне необходимо проверить нет ли в вайт листе сайтов из блок листа. Подскажите инструмент, желательно десктопный, который переваривает подобные объемы информации ? Пытался через эксель, но тупо висит на моем помпе. За ночь так и не отвис (((

Благодарю за полезные советы и добрые напутствия )))

- Дорогой выкуп баннерных показов (https://goo.gl/Haxr87). Советую! - СеоПульт (https://seopult.ru/ref/0c1642776e7e1b04) + крауд-ссылки (https://goo.gl/3eXcqn) = успех - Проверенный CashBack сервис (https://goo.gl/mAIbxw). До 30%
Оптимизайка
На сайте с 11.03.2012
Offline
396
#1

comm -1 -2 <(sort whitelist.txt) <(sort blacklist.txt)

grep -F -x -f whitelist.txt blacklist.txt
⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!
HL
На сайте с 12.12.2012
Offline
118
#2

Оптимизайка, я так понимаю, это решение под линукс ? Не знаком с этой осью (((

HM
На сайте с 14.01.2012
Offline
252
#3

удалено12345

[Удален]
#4
HotLab:
Пытался через эксель, но тупо висит на моем помпе. За ночь так и не отвис (((

или комп совсем древний или делали что-то не так, даже просто тупым перебором в макросе такой объём спокойно обрабатывается, а если делать по уму в excel, то используйте данные создать запрос и редактор запроса

Оптимизайка
На сайте с 11.03.2012
Offline
396
#5
HotLab:
Не знаком с этой осью (((

http://gnuwin32.sourceforge.net/packages/grep.htm

samimages
На сайте с 31.05.2009
Offline
427
#6
HotLab:
желательно десктопный

http://x-parser.ru/software/9-penguin.html - это самый простой вариант для винды

не помню есть там сравнение файлов или нет... демку качните

Опыт как иммунитет — приобретается в муках! Аудит семантики от 15К [долго] - ЛС
Devvver
На сайте с 02.07.2008
Offline
691
#7

Делал похожую операцию в своем софте, у меня поиск и удаление 200*200 занимает примерно секунд 5. Для млн это порядка 4 часов минимум.. Тут нужна программа оптимизированная чтобы это делала не через статические переменные а динамическое выделение памяти, иначе не выполнит - подвиснет.

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://e-moldovanu.com/ ) Мой SEO телеграм канал https://t.me/seobloggers
[Удален]
#8
Devvver:
Для млн это порядка 4 часов минимум..

excel позволяет делать запросы на выборку из разных источников данных, в том числе из txt

какие 4 часа?

вы представляете запрос к бд который выполняется 4 часа??

Devvver
На сайте с 02.07.2008
Offline
691
#9

burunduk,

Devvver:
похожую операцию в своем софте, у меня поиск и удаление 200*200 занимает примерно секунд 5. Для млн это порядка 4 часов минимум


Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий