Key Collector - автоматизированная система анализа семантического ядра. Часть 2

MIZER
На сайте с 14.01.2007
Offline
45
#841
MIND:
Каждый поток вращает "барабан" проксей. У каждого потока своя "обойма" (если речь идет о многопоточной функции).

Давайте лучше на примере

Дано: 50 проксей. Нужно спарсить вордстат.

Потоков: 10

Задержка: от 1500 до 2500

Коллектор отработал (порядка получаса) и не выдал ни разу капчи. Скорость конечно устраивает, но вдруг у меня не оптимальные настройки?

+ еще вопрос

если при парсинге того же вордстата или ЛИ происходит какой-то сбой (недогрузилась страница или еще что), то коллектор пишет 0 или пробует повторно выполнить проверку?

R
На сайте с 22.06.2007
Offline
174
#842

MyOST, спасибо за ответы, программу уже тестирую :)

medea
На сайте с 19.09.2007
Offline
307
#843

Я туплю, или нет возможности задать регион при определении релевантных страниц? Если не туплю, то надо сделать )

Продвижение сайтов (http://www.iqpromo.ru/) под моим присмотром :)
R
На сайте с 22.06.2007
Offline
174
#844

Выскочила капча, ввел, сразу выскакивает опять и т.д., даже одного значения после вновь введенной не обрабатывает.

Если можно работать через прокси, то где взять список нормальных прокси с нормальной скоростью?

Reise добавил 10.02.2011 в 14:47

У меня много багов обнаружилось, куда обратиться по этому поводу?

Запускаю, спрашивает как подключаться через прокси или напрямую, отвечаю напрямую, выскакивает:

Нажимаю ОК, выскакивает еще ошибка:

После чего открывается сама программа. Пользоваться можно (если не считать глюка с капчей), но например с настройками проблема. Если пробую сменить настройки, нажимаю "сохранить изменения" - программа закрывается без предупреждений.

Windows XP SP3, .NET Framework 4 вроде бы.

MIND
На сайте с 08.03.2007
Offline
238
#845
Давайте лучше на примере
Дано: 50 проксей. Нужно спарсить вордстат.
Потоков: 10
Задержка: от 1500 до 2500

Каждый поток получает на обработку равное количество слов. Каждому потоку будет назначено по 5 прокси-серверов, которые он будет менять при каждом новом слове. В итоге один ИП-адрес будет использовать раз в 5*(от 1500 до 2500 мс) ~= 10 секунд

+ еще вопрос
если при парсинге того же вордстата или ЛИ происходит какой-то сбой (недогрузилась страница или еще что), то коллектор пишет 0 или пробует повторно выполнить проверку?

Эм, если нет необходимых данных или сбой, то должен пробовать пробивать заново.

MIND добавил 10.02.2011 в 16:20

Я туплю, или нет возможности задать регион при определении релевантных страниц? Если не туплю, то надо сделать )

Настройки - Парсинг - Поисковая выдача - Регион Яндекса

MIND добавил 10.02.2011 в 16:20

Если можно работать через прокси, то где взять список нормальных прокси с нормальной скоростью?

Нормальные прокси бесплатными не бывают. Купить

MIND добавил 10.02.2011 в 16:21

Выскочила капча, ввел, сразу выскакивает опять и т.д., даже одного значения после вновь введенной не обрабатывает.

На каком сервисе капча вылезла? Использовали ли при этом прокси?

MIND добавил 10.02.2011 в 16:22

Если пробую сменить настройки, нажимаю "сохранить изменения" - программа закрывается без предупреждений.

Это мы вчера упустили момент. Ошибка касается только новых пользователей или пользователей, у которых нет конфига. Попробуйте вручную скачать программу заново через 5 минут. Извините за неудобства.

Key Collector - автоматизированная система анализа семантического ядра (/ru/forum/863504)
MyOST
На сайте с 22.01.2006
Offline
559
#846
вчера вечером обновил программу, но к сожалению, не увидел обещаного

мануал отдельным сайтом, вне архива, готовится

medea, на глобус нажать и установить регион, с версии 2.0.15 он учитывается и для релевантных.

Выскочила капча, ввел, сразу выскакивает опять и т.д., даже одного значения после вновь введенной не обрабатывает.

какие таймауты настроены? Если малые -то как бы на срок около суток просто прекращайте парсинг, или меняйте IP. Т.К. капча через запрос - это уже поймали надолго.

Если можно работать через прокси, то где взять список нормальных прокси с нормальной скоростью?

C прокси работать можно

http://yandex.ru/yandsearch?text=%D0%BF%D1%80%D0%BE%D0%BA%D1%81%D0%B8+%D1%81%D0%B5%D1%80%D0%B2%D0%B5%D1%80%D0%B0&clid=9582&lr=213

Большим помочь не могу, каждый сам ищет для себя источники проксей.

У меня много багов обнаружилось, куда обратиться по этому поводу?

Запускаю, спрашивает как подключаться через прокси или напрямую, отвечаю напрямую, выскакивает:

Это не баг - это программа спрашивает через прокси интернет или напрямую. И создает в первый раз конфигурационный файл.

Вы не спешите писать про "много багов", а в настройки загляните программы, оттестируйте ее.

Как я понимаю зависает - а значит удаляйте свой фреймворк и предыдущие версии и воспользуйтесь ссылкой, которая высылалась при покупке - нормальный полноценный фреймворк.

http://www.microsoft.com/downloads/ru-ru/details.aspx?FamilyID=0a391abd-25c1-4fc0-919f-b21f31ab88b7

После его установки, Ваши баги исчезнут моментально.

Блог (http://seom.info/) | Ты уже SEO профессионал? (http://www.key-collector.ru/) Развиваем семантику более 8 лет! ()
NeoSky
На сайте с 18.01.2008
Offline
172
#847

Пробежался вроде по топику. но похожей проблемы не увидел.

У меня недели 2 назад перестал парситься вордстат, процесс висит какое то время потом пишет что мол выполнено, но данных нет. Прокси не использую, поток один. Зашел через IE в вордстат сразу надо вводить капчу вместе с запросом, может из-за этого? Куки в программе сбрасывал, не помогло.

Настройки вордстата http://s2.itrash.ru/idb/51513fa3188647193c99daab6250eac3/oSnimok.PNG

Из кожи вон, но лезу в ТОП
MIND
На сайте с 08.03.2007
Offline
238
#848
NeoSky:
Пробежался вроде по топику. но похожей проблемы не увидел.
У меня недели 2 назад перестал парситься вордстат, процесс висит какое то время потом пишет что мол выполнено, но данных нет. Прокси не использую, поток один. Зашел через IE в вордстат сразу надо вводить капчу вместе с запросом, может из-за этого? Куки в программе сбрасывал, не помогло.

Настройки вордстата http://s2.itrash.ru/idb/51513fa3188647193c99daab6250eac3/oSnimok.PNG

Ограничение на кол-во слов не мешает? вкладка общие

MIND добавил 10.02.2011 в 17:43

Загружаю прокси в настройках сети, снимаю галку работать через основной ip и ставлю 10 потоков в настройках парсинга выдачи, запускаю - парсинг идет только по одному ip, причем по скорости видно что поток 1, при выдаче капчи вообще все останавливается - смены прокси не происходит.

А галка "Использовать прокси" на вкладке "Сеть" стоит? Попробовал загрузить 3 прокси, поставил 10 потоков и снял "использовать основной ИП". В трафик мониторе ни одно не было снято через основной ИП (все прошли через прокси), а данные появлялись со скоростью в 10 потоков. Потом поставил 1 и 2 потока, прокси загрузил 3 штуки. Съем также идет без использования основного ИП.

Да, кстати. Небольшое замечание по работе проксей (ротации). Если проксей добавлено больше, чем потоков, то основной ИП в любом случае не используется. Разумно ведь? :)

MyOST
На сайте с 22.01.2006
Offline
559
#849
Да, кстати. Небольшое замечание по работе проксей (ротации). Если проксей добавлено больше, чем потоков, то основной ИП в любом случае не используется. Разумно ведь?

оно логично с той точки зрения, чтобы не забивать основной IP если он статичный,так что это не обсуждается даже, я так думаю

Demour
На сайте с 12.06.2009
Offline
92
#850

А можно получить платную консультацию по программе?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий