- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
В общем задачка - нужно спарсить инфу с очень большого сайта, в выдаче более 10млн страниц, по факту еще больше. Спарсил ~800к, начали банить по IP, чем дольше, тем чаще, поэтому необходимы прокси, а они будут резать скорость еще больше. Паршу "Контент даунлоедром", в общем устраивает, но скорость маленькая, по подсчетам парсить будет несколько месяцев в лучшем случае, в худшем - около года.
Какие есть вариенты? Первое что приходит на ум - заказывать серверный парсер и раскидывать его по десятку серверов с много-мбитным каналом. Однако хочется что бы вышло все подешевле и попроще. Посоветуете что?
В общем задачка - нужно спарсить инфу с очень большого сайта, в выдаче более 10млн страниц, по факту еще больше. Спарсил ~800к, начали банить по IP, чем дольше, тем чаще, поэтому необходимы прокси, а они будут резать скорость еще больше. Паршу "Контент даунлоедром", в общем устраивает, но скорость маленькая, по подсчетам парсить будет несколько месяцев в лучшем случае, в худшем - около года.
Какие есть вариенты? Первое что приходит на ум - заказывать серверный парсер и раскидывать его по десятку серверов с много-мбитным каналом. Однако хочется что бы вышло все подешевле и попроще. Посоветуете что?
По дешевле и по проще будут прокси не паблик.
Вы этот сайт потом в интернете выложите на своем домене?
Я парсить научился в контент даунлоадере, а выкладывать на свой сайт пока не научился.
в браузере
Файл -> Сохранить страницу как...
в браузере
Файл -> Сохранить страницу как...
Повторить 10млн раз?
Парси на сервере с тонной паблик проксей.
Может лучше обратиться к пирожковых дел мастерам? И просто слить с сервака все вместе с базой и скриптами...
Будет дешевле и быстрее.
Может лучше обратиться к пирожковых дел мастерам? И просто слить с сервака все вместе с базой и скриптами...
Будет дешевле и быстрее.
Да тут нужно проксей на сутки взять и выпарсить в несколько потоков. Исходя из слов ТС он спарсил 800к с одного ip, значит 20 проксей на 10лямов должно хватить.
JabbaHutt покажи источник. 🤣
Поначалу не банили, через 500к начали банить айпишники, сейчас хваттает буквально на несколько десятков тысяч. Ну а главная проблема - медленный белорусский интернет, поэтому выходит очень медленно. На эти 800к ушло недели 3. Поэтому ищу серверное решение.
Тут кто-то продавал базу кинопоиска.
может сразу к владельцу обратиться? (: /ru/forum/846412