byterus, Ok. В ближайшее время запущу серию тестов с разным количеством потоков. Все подробности выложу.
ТЕСТ 3
Проводился на старой сборке, по факту подвисания программы - перезагружал. При этом так или иначе выкладываю результат, не на предмет текущих проблем с зависаниями, а в качестве аналитики по настройкам программы для максимально быстрого сбора большого ядра.
Система: Win 7 x64, Intel Pentium G640 (2,80; 2,80), 8 Гб
Исходник: 8Мбит
Ping Yandex: 52 мс
Кол-во прокси серверов: 2500 с временем отклика менее 400
Кол-во позиций: 7626 (30% Google, 70% Yandex)
Кол-во потоков: 100
Распознавать капчу: да
Локальное подключение: да
Задержка: от 3000 до 6500 для всех ПС, таймаут 30с после 50 фраз.
Несколько экземпляров в одном подключении: нет
---- результат ----
Завис на 4771, текущее время работы 9:29. При этом в статусах задач стоит "Без подключения. Ожидает подключения...". На "отмена" не среагировал (ожидание 50мин). Снял задачу, перезапустил!
Коль-во капч: 0
BAN: 0
Время выполнения: 09:29
Снова завис на глухо проверив всего 29 запросов, время ожидания 8:59. Снял задачу и перезапустил.
Сумарное время выполнения 18:28
Снова зависла, практически сразу. Успела отработать только 1 запрос, время ожидания 2:52.
BAN: 78 (поймал в первые 10 минут, затем повис как и прежде с фразой "без подключения", "Ожидает подключения..."). Возникло подозрение на таймауты сервера, изменил таймаут ответа на 1000, и таймаут ожидания на 2000. Перезапустил!
Сумарное время выполнения 21:20
Снова зависла, практически сразу. Успела отработать только 22 запроса, время ожидания 0:34.
BAN: 16 (поймал в первые 10 минут, затем повис как и прежде с фразой "без подключения", "Ожидает подключения..."). В настройках подключения указал "проверять только порт". Перезапустил!
Сумарное время выполнения 21:54
Время выполнения 10:53, программа живет но распознает очень при очень медленно.Останавливаю тест.
На текущий момент:
BAN: 6061
Сумарное время выполнения 32:13
Без капчи в принципе работает причем достаточно быстро, но нужны хорошие прокси. За не имением таковых сборка позиций превращается в ад!
Далее повторю ТЕСТ 2 с новой сборкой и настройками таймаутов отобранными в ТЕСТ 3. Результат выложу через пару дней.
Прокси были (тянет по ссылке постоянно обновляющийся список), не откликалась на "Отмена", при этом в диспетчере задач висела как корректно работающее приложение. Просто повисло несколько задач в самой программе, логи некоторых из них вам уже предоставил.
Сейчас запустил очень интересный тест без капчи, пока бежит очень бодро. Чуть позже выложу результат.---------- Добавлено 24.06.2013 в 15:23 ----------byterus, как будет готова новая сборка, пожалуйста сообщите. Проведу тест №2 повторно, т.к. он впринципе до ступора с ошибкой работал очень шустро.
ТЕСТ 2
---- Результат ----
Кол-во капч: 2974
BAN: 593
Время выполнения: 12:34
---- Коментарии ----
Завис на 7155 на глухо в состоянии постановки задачи в очередь (в задаче написано "В очереди..."), время сбора позиций 11:19. Перезапустил!
Кол-во капч на текущий момент: 2800
BAN на текущий момент: 593
Лог ошибок выкладываю по ссылке: https://docs.google.com/file/d/0B_bKispJS9wHZGVTR1hZcGxxVDg/edit?usp=sharing
А какие есть наработки и рекомендации по многопоточному режиму? Сколько вообще рекомендуется ставить?
Большое спасибо за комментарий, думаю вполне уместно разместить еще и эти данные.
Win 7 x64
Intel Pentium G640 (2,80; 2,80)
8 Гб
Для сбора позиций в 100 потоков более чем хватает, работает достаточно шустро.
Снова всем привет ))
Запускаю серию тестов по работе с ядром среднего размера 5-10к, в процессе рассчитываю собрать от вас рекомендации и ознакомится с вашей практикой работы с данным программным продуктом.
ТЕСТ 1
********а: да
Локальное подключение: нет
Задержка: по умолчанию
Несколько экземпляров в одном подключении: да
Кол-во капч: 4945
BAN: 4380
Время выполнения: 19:06
Завис на 6696 в состоянии распознавания капчи на 3:15, затем очухался и продолжил сбор. Итоговое время смотрите выше.
Благодарю за ответ.
Куки не отключали, настройки IE по умолчанию. Буду пробовать увеличить тайминги по вашей рекомендации, чуть позже выложу отчет по результатам.
Хотел еще поинтересоваться, не будет ли более результативным отказаться от распознавания капчи и использовать локальное подключение + прокси (2000-3000шт.), при этом оперируя таймингами?---------- Добавлено 22.06.2013 в 22:22 ----------
Тоже этот вопрос интересует...
С радостью помогу ))
Что именно вас интересует?
Добрый день.
Подскажите пожалуйста самые приемлемые настройки использования прокси, капчи и таймаутов для сбора позиций в Google и Яндекс?
На данный момент собираю 10k запросов, через 70 прокси приобретенных на Fineproxi, локальное подключение - отключено, капча распознается в Capthabot, стоит таймаут 300с. через 200 запросов. Google бан ловит практически сразу, Яндекс подбираясь к 4000 тоже отчаянно начинает ловить бан. При этом разумеется жрет неимоверное количество капч, уходит по 5-8$ за сбор позиций.
Есть ли какие нибудь более разумные варианты настройки программы или может быть следует использовать менее заезженные прокси и где их в таком случае взять?
Поделитесь своим опытом работы с большим ядром... Заранее огромное спасибо!