Спарсить большой сайт [10+ млн страниц]

1 234
-
На сайте с 16.03.2013
Offline
41
#21

Лучше не пользоваться парсером ссылок в контент довлодере так много мусорных страниц собирается, лучше зайти на сайт и посмотреть как страницы формируются и потом их сгенерировать в генераторе ссылок. Генерим ссылки разделов (категорий), затем парсим ссылки на контент в разделах и поэтим ссылкам парсим сами статьи, анкеты или кино.

Bramin
На сайте с 28.01.2010
Offline
125
#22
-Kai-:
Лучше не пользоваться парсером ссылок в контент доунлоадере.

бред. там есть фильтр, можно спарсить ссылки практически любого вида.

Пожалуй лучший хостинг под доры (https://my.friendhosting.net/pl.php?9626), поддержка 24/7, отличные цены.
SocFishing
На сайте с 26.09.2013
Offline
118
#23

Если еще актуально, то какая цена вопроса?

Можем помочь быстро, многопоточно спарсить информацию без блокировок. Механизм отлажен.

ЛС.

★Сервис идентифицирует (https://socfishing.com/?utm_source=searchengines) посетителей вашего сайта и предоставляет их профили ВКонтакте, Телефон, Почта! Цены копеечные, работаем 8 лет.
AloneSlamer
На сайте с 28.09.2011
Offline
133
#24

В чем проблема купить впс и пачку соксов и парсить оттуда ? решение на месяц обойдется примерно в 40 баксов

JH
На сайте с 31.03.2012
Offline
91
#25
SocFishing:
Если еще актуально, то какая цена вопроса?
Можем помочь быстро, многопоточно спарсить информацию без блокировок. Механизм отлажен.

ЛС.

Нет, уже нашел решение.

AloneSlamer, ну, как минимум проблема в том, что сканер сайтов КД не тянет более миллиона ссылок, чаще меньше. Поэтому надо разбивать проект на десятки поменьше. А что бы запустить этот десяток, нужна уже впс с нормальным количеством оперативы.

R
На сайте с 13.04.2009
Offline
159
#26

Могу за 2000$ спарсить 😂.

Для 10 млн записей это обычная рыночная цена на датамайнинг. 90% софта который вы перечислили просто не справится с этим объёмом.

Xammer2000
На сайте с 10.08.2011
Offline
188
#27
Если что, то вы знаете где меня искать

да Энслон может взять 50 процентов вперед и потом рассказывать про детей новорожденных, про радость отцовства и т.п., кидало короче

Кстати в контент даунлодере можно прикупить каналов вроде.

eN_Slon
На сайте с 13.02.2007
Offline
159
#28

Xammer2000, Ваше право на мнение. Но если приглядеться, то вначале моей деятельности были сплошь и рядом положительные отзывы, в том числе и от Вас.

Я в топике отписал, что

eN_Slon:
Всем кому затянул, кого забыл - приношу свои извинения и изъявляю готовность наверстать. Пишите в контакты

Готов наверстать и с Вами. Я не подонок и не кидала. Просто бывают разные жизненные обстоятельства. Пишите - компенсирую делом или монетой.

---------- Добавлено 26.04.2014 в 17:35 ----------

rushter:
Могу за 2000$ спарсить .
Для 10 млн записей это обычная рыночная цена на датамайнинг

Откуда информация о ценах? Я для заказчиков парсил миллионы записей вчетверо дешевле.

Парсинг, граббинг, автоматизация всего что вы можете сделать в браузере(и не только) сами. Любое кол-во, любые защиты.
SocFishing
На сайте с 26.09.2013
Offline
118
#29
JabbaHutt:
Нет, уже нашел решение.

А какое решение если не секрет?

если отдача хорошая, 10 лямов это около 12 часов, 200 асинхронных потоков, можем записать результат в базу. блокировок не будет.

по цене выше жесткий демпинг готовы. опыт вилик, порядка полумиллиарда в месяц парсится.

JH
На сайте с 31.03.2012
Offline
91
#30
rushter:
Могу за 2000$ спарсить 😂.
Для 10 млн записей это обычная рыночная цена на датамайнинг.

Это в 2 раза выше, чем самая высокая названная цена до этого.

А какое решение если не секрет?

Серверный парсер, 200$.

Тему в общем-то можно закрывать, а то я вижу вы тут уже свои отношения выяснять начинаете.

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий