Z0G SYSTEM

Z0G SYSTEM
Рейтинг
126
Регистрация
08.12.2009
colorito:
Можно для начала разбить 10 млрд строк на 10 файлов по 1млрд в каждом

split -l 1000000000 keywords.txt

Потом эти файлы отсортировать, очистить от дублей командой выше, склеить все обратно и опять отсортировать и очистить

Можно склеить, потом разбить еще раз (выборка будет уже другая), тоже отсортировать, уникализировать и склеить

И так до тех пор, пока не получим один файл, подходящий нам по размеру, который система сможет обработать

Согласен! Можно и таким макаром, вопрос упирается во временной промежуток и лишние телодвижения! ТС спрашивает про сервисы, таких думаю не существует! Поэтому и предложил свою услугу в замен на очищенный результат. Бесплатно никто и ничего делать не будет, нужен взаимовыгодный обмен.

Хотя есть сомнения насчёт пополнения своей базы на 35 миллионов, так как тоже по максимуму выпаршивал прямой эфир яндекса и убирал дупли + все коме латиницы и кирилицы и знаков отличных от , . и т.п.

Sergi0k:
Качай Пингвин и решай все свои вопросы

Ты для начала сам попробуй 10 миллиардов обработать, прежде чем советовать, а потом всё поймёшь. 500 миллионов ешё нормально отсортировать, а вот больший размер проблема упирающаяся в оперативку + время на удаление дуплей!

---------- Добавлено 04.05.2016 в 18:25 ----------

colorito:
Интересно, справится ли? cat keywords.txt | sort | uniq > new_keywords.txt

С файлами на 2 миллиарда справляется без проблем, оперативки щас уже не припомню, но что-то около 10 гигов жрало. Если все делать на серверном оборудовании, без проблем должно вытянуть 10 миллиардов.

У меня немного другой алгоритм выполнения действий по удалению дуплей, но тут обсуждать я его не буду, пока сам пользуюсь таковым!

TOBBOT:
какой размеры базы в мегабайтах?

1,25 Гб (UTF) - 35 миллионов строк база прямого эфира, вот и прикинь примерный размер базы ТС.

---------------------------------------------------------------------------------------------------------------------

40 Гб (UTF) - Полтора миллиарда строк, база Метрики Яндекс, но там строки от очень коротких до очень длинных

Astaldo:
Всем привет.

Напарсили из прямого эфира 10 млрд. кейвордов.
Дублей наверное 80-90%, не знаем как их удалить, хотя бы по точному соответствию.
Какие есть сервисы/скрипты для такого дела?

Могу очистить от дуплей базу, но результат очищенный остается нам обоим! За 2-3 дня будет готово. Есть база у самого на 35 миллионов с прямого эфира почищенная на дупли, но возможно ешё дополню свою немного с вашей. Если интересно, по контактам Аська 2229193 Скайп seobasetrust

Ссылки в подписи на доры с серча совсем не айс, 1000 раз проверенно! 🤣 Чего уж там мелочиться, скоро тема появится вечные ссылки с серча...

Вечные ссылки с edu/gov сайтов

А вот и базки по которым гоняет бугага

www.premed.fudan.edu.cn/premedforum/user/profile/381169.page
_______online.uprrp.edu/blog/index.php?userid=11652
www.ifesp.edu.br/ead/blog/index.php?userid=3016
https://vue-forums.uit.tufts.edu/user/profile/324002.page
_______s21.ozersk.chel.fcior.edu.ru/forum/index.php?PAGE_NAME=profile_view&UID=18715
_______sudoku.nctu.edu.tw/sudoku/view_profile.php?userid=730085
_______lysine.umiacs.umd.edu/latticeDEV2/view_profile.php?userid=4423741
_______brooklynatlantis.poly.edu/view_profile.php?userid=62354
_______boinc.umiacs.umd.edu/team_display.php?teamid=46512
_______volunteer.cs.und.edu/csg/team_display.php?teamid=7610
_______www2.tku.edu.tw/~tacx/html/userinfo.php?uid=1523312
_______lego.udg.edu/Forum/viewprofile.aspx?UserID=2079
_______discotoca.edu.bo/?option=com_k2&view=itemlist&task=user&id=907803
_______ecologicalurbanism.gsd.harvard.edu/forum/profile.php?id=161350
_______dug.uc.iupui.edu/UserProfile/tabid/6852/userId/43323/Default.aspx
www.icsi.edu/capitalmarketweek/UserProfile/tabid/4706/userId/182272/Default.aspx
_______hgdvl.hnue.edu.vn/UserProfile/tabid/61/UserID/389297/Default.aspx
_______aacsb.csudh.edu/UG/tabid/36/forumid/2/postid/3288/scope/posts/Default.aspx
_______wwwx.cs.unc.edu/Courses/comp283-f14/q2a/index.php?qa=user&qa_1=eillsell
https://jmars.mars.asu.edu/forum/member.php?312
_______languagebox.ac.uk/profile/3239
_______humbox.ac.uk/profile/4491
www.sd.pk.edu.pl/forum/profile.php?mode=viewprofile&u=122488
_______cnmvslobozia.licee.edu.ro/sitevechi/forum/profile.php?mode=viewprofile&u=650098
_______tecnln1-prod.its.waikato.ac.nz/~eillsell

P.S так это не edu/gov а их производные, какой прок с подобных линков? Профиля передают малый вес, а усиливать их блогспотом это глупость несусветная, если конечно это не тест просто!

Skf:
В Я.Вебмастер в любом случае добавлять придется

Удачи с таким способом! Туда доры добавлять это трындец полный. Проще тогда уже по почте в техподдержку яндекса выслать линки на все поддомены 🤣 Ну да ладно, учись на своих ошибках ;) Позже сам поймёшь, что плохо, а что нет...

СКИДКИ НА ВСЕ ТОВАРЫ 30 % С 28 АПРЕЛЯ ДО 2 МАЯ 2016

Baruchka:
Если для вас написать 7 новостей в сутки — рабский труд, эта работа явно не для вас )) Нужен кто-то поактивнее. 7 новостей пишутся за 2-4 часа.
От 25 тыс это за 7-8 новостей, можно зарабатывать и 50 тыс если писать больше. Ограничений особо нет, все обговаривается.

7 новостей пишутся за 2-4 часа, согласен, а вот перевод с изменением заголовка на привлекательный, а так же работа в фотошопе с картинками + добавление на сайт о чём написано в стартовом посте это далеко не 2-4 часа. По поводу прибыли с сайта, мне не интересно это, примерный доход можно и так просчитать, исключая конечно прямых рекламодателей.

P.S Не относится к делу, но всё же: не видел ешё тех кто бы не жаловался на заработок будь он 30 000 в сутки. Работаю с клиентами на прямую по продвижению сайтов и знаю это не по наслышке, чем лучше результат тем больше потом слез то что мало клиентов/заказов. Постоянно пытаются сбивать цену за проделанную работу.

ТС в сигаретах уже давно нет привычного табака, а лишь пыль и имитация с вредными примесями отравляющими организм. Если уж так хочется табака то для этого есть сигары или тот же трубочный табак. Всё остальное содержит лишь пыль от табака. А лучше бросай курить, пока это не поздно сделать. 🙅

Для такого проекта и рабского труда за 25 000 это жлобство! 210-300 новостей в месяц с заголовками + картинками + поиск материала + перевод стоит куда больших денег, никто в здравом уме не согласится на подобную работу. А если и найдете такого исполнителя, то качество будет на программном уровне! Советую пересмотреть бюджет в большую сторону.

Всего: 869