- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Всем привет.
Напарсили из прямого эфира 10 млрд. кейвордов.
Дублей наверное 80-90%, не знаем как их удалить, хотя бы по точному соответствию.
Какие есть сервисы/скрипты для такого дела?
Всем привет.
Напарсили из прямого эфира 10 млрд. кейвордов.
Дублей наверное 80-90%, не знаем как их удалить, хотя бы по точному соответствию.
Какие есть сервисы/скрипты для такого дела?
Могу очистить от дуплей базу, но результат очищенный остается нам обоим! За 2-3 дня будет готово. Есть база у самого на 35 миллионов с прямого эфира почищенная на дупли, но возможно ешё дополню свою немного с вашей. Если интересно, по контактам Аська 2229193 Скайп seobasetrust
какой размеры базы в мегабайтах?
какой размеры базы в мегабайтах?
1,25 Гб (UTF) - 35 миллионов строк база прямого эфира, вот и прикинь примерный размер базы ТС.
---------------------------------------------------------------------------------------------------------------------
40 Гб (UTF) - Полтора миллиарда строк, база Метрики Яндекс, но там строки от очень коротких до очень длинных
Интересно, справится ли?
cat keywords.txt | sort | uniq > new_keywords.txt
Качай Пингвин и решай все свои вопросы
Качай Пингвин и решай все свои вопросы
Ты для начала сам попробуй 10 миллиардов обработать, прежде чем советовать, а потом всё поймёшь. 500 миллионов ешё нормально отсортировать, а вот больший размер проблема упирающаяся в оперативку + время на удаление дуплей!
---------- Добавлено 04.05.2016 в 18:25 ----------
Интересно, справится ли? cat keywords.txt | sort | uniq > new_keywords.txt
С файлами на 2 миллиарда справляется без проблем, оперативки щас уже не припомню, но что-то около 10 гигов жрало. Если все делать на серверном оборудовании, без проблем должно вытянуть 10 миллиардов.
У меня немного другой алгоритм выполнения действий по удалению дуплей, но тут обсуждать я его не буду, пока сам пользуюсь таковым!
С файлами на 2 миллиарда справляется без проблем, оперативки щас уже не припомню, но что-то около 10 гигов жрало. Если все делать на серверном оборудовании, без проблем должно вытянуть 10 миллиардов.
Можно для начала разбить 10 млрд строк на 10 файлов по 1млрд в каждом
split -l 1000000000 keywords.txt
Потом эти файлы отсортировать, очистить от дублей командой выше, склеить все обратно и опять отсортировать и очистить
Можно склеить, потом разбить еще раз (выборка будет уже другая), тоже отсортировать, уникализировать и склеить
И так до тех пор, пока не получим один файл, подходящий нам по размеру, который система сможет обработать
Можно для начала разбить 10 млрд строк на 10 файлов по 1млрд в каждом
split -l 1000000000 keywords.txt
Потом эти файлы отсортировать, очистить от дублей командой выше, склеить все обратно и опять отсортировать и очистить
Можно склеить, потом разбить еще раз (выборка будет уже другая), тоже отсортировать, уникализировать и склеить
И так до тех пор, пока не получим один файл, подходящий нам по размеру, который система сможет обработать
Согласен! Можно и таким макаром, вопрос упирается во временной промежуток и лишние телодвижения! ТС спрашивает про сервисы, таких думаю не существует! Поэтому и предложил свою услугу в замен на очищенный результат. Бесплатно никто и ничего делать не будет, нужен взаимовыгодный обмен.
Хотя есть сомнения насчёт пополнения своей базы на 35 миллионов, так как тоже по максимуму выпаршивал прямой эфир яндекса и убирал дупли + все коме латиницы и кирилицы и знаков отличных от , . и т.п.
Есть бесплатные проги типа keywasher, можно разделить файл на 10-20 частей, а потом обработать каждый функцией "удалить дубли". Но это в теории, а на практике думаю нужен очень мощный комп, чтобы это все обработал, а не завис.
P.S. у меня тоже есть база типа мини-моаб, хз сколько там кеев, но файлов 70к, вес 54гб, тоже никак руки не дойдут разобраться с этой базой.
Можно для начала разбить 10 млрд строк на 10 файлов по 1млрд в каждом
split -l 1000000000 keywords.txt
Потом эти файлы отсортировать, очистить от дублей командой выше, склеить все обратно и опять отсортировать и очистить
Можно склеить, потом разбить еще раз (выборка будет уже другая), тоже отсортировать, уникализировать и склеить
И так до тех пор, пока...
Более логично - сформировать на каждую букву по отдельному файлу, это можно сделать grep-ами.
Затем каждый файл очистить от дупов - sort -u
Если возникнет желание, то потом склеить результат.
ps: можно было сразу при парсинге раскладывать кейворды по буквам и периодически по крону зачищать дупы, а не копить себе будущую головную боль. :)