- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Каждый поток вращает "барабан" проксей. У каждого потока своя "обойма" (если речь идет о многопоточной функции).
Давайте лучше на примере
Дано: 50 проксей. Нужно спарсить вордстат.
Потоков: 10
Задержка: от 1500 до 2500
Коллектор отработал (порядка получаса) и не выдал ни разу капчи. Скорость конечно устраивает, но вдруг у меня не оптимальные настройки?
+ еще вопрос
если при парсинге того же вордстата или ЛИ происходит какой-то сбой (недогрузилась страница или еще что), то коллектор пишет 0 или пробует повторно выполнить проверку?
MyOST, спасибо за ответы, программу уже тестирую :)
Я туплю, или нет возможности задать регион при определении релевантных страниц? Если не туплю, то надо сделать )
Выскочила капча, ввел, сразу выскакивает опять и т.д., даже одного значения после вновь введенной не обрабатывает.
Если можно работать через прокси, то где взять список нормальных прокси с нормальной скоростью?
Reise добавил 10.02.2011 в 14:47
У меня много багов обнаружилось, куда обратиться по этому поводу?
Запускаю, спрашивает как подключаться через прокси или напрямую, отвечаю напрямую, выскакивает:
Нажимаю ОК, выскакивает еще ошибка:
После чего открывается сама программа. Пользоваться можно (если не считать глюка с капчей), но например с настройками проблема. Если пробую сменить настройки, нажимаю "сохранить изменения" - программа закрывается без предупреждений.
Windows XP SP3, .NET Framework 4 вроде бы.
Дано: 50 проксей. Нужно спарсить вордстат.
Потоков: 10
Задержка: от 1500 до 2500
Каждый поток получает на обработку равное количество слов. Каждому потоку будет назначено по 5 прокси-серверов, которые он будет менять при каждом новом слове. В итоге один ИП-адрес будет использовать раз в 5*(от 1500 до 2500 мс) ~= 10 секунд
если при парсинге того же вордстата или ЛИ происходит какой-то сбой (недогрузилась страница или еще что), то коллектор пишет 0 или пробует повторно выполнить проверку?
Эм, если нет необходимых данных или сбой, то должен пробовать пробивать заново.
MIND добавил 10.02.2011 в 16:20
Настройки - Парсинг - Поисковая выдача - Регион Яндекса
MIND добавил 10.02.2011 в 16:20
Нормальные прокси бесплатными не бывают. Купить
MIND добавил 10.02.2011 в 16:21
На каком сервисе капча вылезла? Использовали ли при этом прокси?
MIND добавил 10.02.2011 в 16:22
Это мы вчера упустили момент. Ошибка касается только новых пользователей или пользователей, у которых нет конфига. Попробуйте вручную скачать программу заново через 5 минут. Извините за неудобства.
мануал отдельным сайтом, вне архива, готовится
medea, на глобус нажать и установить регион, с версии 2.0.15 он учитывается и для релевантных.
какие таймауты настроены? Если малые -то как бы на срок около суток просто прекращайте парсинг, или меняйте IP. Т.К. капча через запрос - это уже поймали надолго.
C прокси работать можно
http://yandex.ru/yandsearch?text=%D0%BF%D1%80%D0%BE%D0%BA%D1%81%D0%B8+%D1%81%D0%B5%D1%80%D0%B2%D0%B5%D1%80%D0%B0&clid=9582&lr=213
Большим помочь не могу, каждый сам ищет для себя источники проксей.
Запускаю, спрашивает как подключаться через прокси или напрямую, отвечаю напрямую, выскакивает:
Это не баг - это программа спрашивает через прокси интернет или напрямую. И создает в первый раз конфигурационный файл.
Вы не спешите писать про "много багов", а в настройки загляните программы, оттестируйте ее.
Как я понимаю зависает - а значит удаляйте свой фреймворк и предыдущие версии и воспользуйтесь ссылкой, которая высылалась при покупке - нормальный полноценный фреймворк.
http://www.microsoft.com/downloads/ru-ru/details.aspx?FamilyID=0a391abd-25c1-4fc0-919f-b21f31ab88b7
После его установки, Ваши баги исчезнут моментально.
Пробежался вроде по топику. но похожей проблемы не увидел.
У меня недели 2 назад перестал парситься вордстат, процесс висит какое то время потом пишет что мол выполнено, но данных нет. Прокси не использую, поток один. Зашел через IE в вордстат сразу надо вводить капчу вместе с запросом, может из-за этого? Куки в программе сбрасывал, не помогло.
Настройки вордстата http://s2.itrash.ru/idb/51513fa3188647193c99daab6250eac3/oSnimok.PNG
Пробежался вроде по топику. но похожей проблемы не увидел.
У меня недели 2 назад перестал парситься вордстат, процесс висит какое то время потом пишет что мол выполнено, но данных нет. Прокси не использую, поток один. Зашел через IE в вордстат сразу надо вводить капчу вместе с запросом, может из-за этого? Куки в программе сбрасывал, не помогло.
Настройки вордстата http://s2.itrash.ru/idb/51513fa3188647193c99daab6250eac3/oSnimok.PNG
Ограничение на кол-во слов не мешает? вкладка общие
MIND добавил 10.02.2011 в 17:43
А галка "Использовать прокси" на вкладке "Сеть" стоит? Попробовал загрузить 3 прокси, поставил 10 потоков и снял "использовать основной ИП". В трафик мониторе ни одно не было снято через основной ИП (все прошли через прокси), а данные появлялись со скоростью в 10 потоков. Потом поставил 1 и 2 потока, прокси загрузил 3 штуки. Съем также идет без использования основного ИП.
Да, кстати. Небольшое замечание по работе проксей (ротации). Если проксей добавлено больше, чем потоков, то основной ИП в любом случае не используется. Разумно ведь? :)
оно логично с той точки зрения, чтобы не забивать основной IP если он статичный,так что это не обсуждается даже, я так думаю
А можно получить платную консультацию по программе?