Key Collector - автоматизированная система анализа семантического ядра. Часть 8.

Vladimir Gromozdin
На сайте с 31.01.2010
Offline
59
#531

Каким образом сейчас возможно собрать в течении ограниченого времени несколько сотен тысяч запросов? Частотности, например.

Если покупать прокси - какое количество и какие интервалы ставить?

Профессионально работаю с Google AdWords
orka13
На сайте с 28.03.2011
Offline
102
#532

Здесь вопрос очень сложен и индивидуален. Возможно когда созрею, то создам свой блог и там все в картинках разжую. Ниженаписанное подходит для ситуации, когда у Вас уже есть список спаренных запросов, и только осталось частотности снять (первые три колонки). Если же вам надо искать словоформы или парсить выдачу, то тогда лучше XML-профили и совсем другая инструкция.

В Глобател рекомендуют до 5 запросов в минуту, чтобы не уйти в бан и не словить капчу. Значит 12 секунд таймаут (задержки между запр.). Но там на одном прокси, если верить их админам) сидит 1 (реже 2) клиента, так что IP надёжные, не надо с ними рисковать и превышать лимит. Минус – очень дорого для начинающего вебмастера позволить себе 50 прокси. Обычно там берут 5-10 штук (10-20 вмз\месяц). Хотя аналогов особенно нет среди персональных ру-прокси.

Если же вы используйте низкокачественное покупные не персональные прокси (в месяц сотня IP за пару баксов), или же просто бесплатные, то здесь все дело в этике. Они все равно уйдут в бан, так как на них десятки, а то и сотни таких же вебмастеров парсят. Если не жалко ни их ни соседей (вот и вопрос этики) то можно ставить таймаут поменьше, но тогда словим капчу со временем. Распознавать ее даже через сервис ********и нет смысла, все равно скоро повторится, просто пускай программа переключает прокси.

НО есть паблик прокси низкого качества в забугорных сетях. Их часто банит Гугл, а вот для Яндекса можно использовать, на них меньше наших вебмастеров сидит. Так что если в вашей тысяче паблик прокси есть хоть пятая часть более-менее не переспаспамленых для Яшки, то НЕ снижайте таймаут. Также это касается людей, которым надо спарсить >100к запросов и времени много. Так сказать, лучше потихоньку, чем быстро и в капчу\бан.

Вот на быструю руку схема для десяти качественных персональных и тысячи паблик прокси. Кому приспичит за деньги снять именно с готовых фраз частотности – могу в перерывах между своими делами, если есть простой компов, полмиллиона-миллион запросов в сутки, от 25 вмз\100к.

П.С. Забыл о проверке пакетов прокси и потоки. Для персональных прокси количество потоков = количеству проверенных IP (в идеале для них даже капчи не должно быть). Для тысячи пабликов = ставим 60-80% от количества IP, которые пройдут проверку. Допустим у нас все прошли. Но потом много отключит из-за капчи уже в процессе сбора.

Продажи шаблона Google-Translate (Гугл Переводчик), скорость: 20 млн ключей/час, с прокси, без API. (http://zennolab.com/discussion/threads/prodazhi-shablona-google-translate.43684/) Переводит ключи, статьи, HTML+PHP файлы (целые сайты, доры) с сохранением верстки!
[Удален]
#533

возможно ли собирать KEI в многопоточном режиме?

вордстат парсит в многопоточном

морд/вхождений в топ-10 только по одному. не могу понять в чем дело

или это нереально?

Vladimir Gromozdin
На сайте с 31.01.2010
Offline
59
#534

Возможно. Меняется в настройках KEI.

C
На сайте с 27.12.2007
Offline
100
#535

1) А Key Collector перебирает прокси при неудачных запросах?

Т.е. обращается к определённой странице вордстата, например, через прокси №1 .... прокси нерабочий или ошибка соединения или ещё что-нибудь... берёт прокси №2 и обращается к этой же странице... и так "до победы"?

А то тестировал Словоеб - не получается парсить вордстат через прокси (выдаёт ошибки, хотя прокси прочеканы самим Словоебом и через другой софт работают с вордстатом). Может просто Словоёб давно не обновлялся?

2) Какие типы прокси нужны для этой софтины (http, https, socks4, socks5)?

orka13
На сайте с 28.03.2011
Offline
102
#536
easykeys:
возможно ли собирать KEI в многопоточном режиме?
вордстат парсит в многопоточном
морд/вхождений в топ-10 только по одному. не могу понять в чем дело
или это нереально?

Для Гугла и Яндекса есть отдельно два параметра: «Настройки - Парсинг – Поисковая выдача – К-во потоков». Только у Яшки при ХМЛ много-поточность игнорируется (гляньте в закладку «Журнал событий» при начале сбора. Все решается сильным уменьшением таймингов в глобальных настройках «Настройки - Парсинг – Общие – Таймауты от» (хоть до 100 мс). То есть в 1 поток при 10 шт ХМЛ будет делать 10 запросов в секунду. Правда не всегда рандомно собирает одинаково со всех указаных ХМЛ. Я использовал формат ввода ХМЛ №2, птичку с использования глобальных прокси снимал (вроде так надо, когда прокси прописаны в самом логине ХМЛ, пускай авторы уточнят). С некоторых логинов намного скорее собирало и лимит в 1к запросов в сутки, приходилось их местами менять периодически

Понятно, что для яшки лучше десяток надёжных прокси и столько же ХМЛ логинов, чем даже две сотни малокачественных прокси, с которых, пускай даже 100% еще не закапчены. К Вам там быстро капча в гости приходит без ХМЛ, это не Вордстат. Для гугла проще. Даже в низкокачественных покупных русскоязычных прокси он редко в бане, так как у нас больше Яндекс напрягают вебмастера. Если очень надо по быстрому, то можно ставить паузы (таймауты) хоть в одну секунду и пускай автоматом переключает прокси при встрече капчи. НО это не вордстат для готовых фраз, когда при ошибке потока у нас будет пустое поле в ячейке вместо цифры. Здесь при переключение прокси из-за встречи капчи нам заполнит нулями поля с количеством вхождений главных\заголовков на исследуемой фразе, и отследить какие фразы ошибочно занулило не получится, будет много неправильных результатов. Простыми словами: для высоко-конкурентных ошибочных фраз будет выглядеть что в выдаче нет конкурентов. Так что лучше использовать все те же надежные прокси с вводом капчи и таймаутами на уровне 1-5 секунды.

Для остальных ПС: «Настройки - Парсинг – KEI – К-во потоков».

Chyvak:
1) А Key Collector перебирает прокси при неудачных запросах?
А то тестировал Словоеб - не получается парсить вордстат через прокси (выдаёт ошибки, хотя прокси прочеканы самим Словоебом и через другой софт работают с вордстатом). Может просто Словоёб давно не обновлялся?
2) Какие типы прокси нужны для этой софтины (http, https, socks4, socks5)?

1) Да, но актуально только при сборе цифр для готовых фраз. Если парсить вордстат по словоформам для высокочастотных фраз на много страниц, то при встрече капчи программа остановится на найденных результатах и не продолжит добивать ошибочную фразу, а переключится на парсинг другой фразы, или же просто остановит сбор (если была только 1 фраза для сбора). Будет выглядеть, будто собрало до конца, а когда взглянуть в закладку «журнал событий в низу», то там будет писать что то типа «фраза ххххх ….. собрана не до конца»

2) Работал только с http. Под разные типы парсинга подойдет разное качество\количество. Разница приводилась мной на последней странице.

C
На сайте с 27.12.2007
Offline
100
#537
1) Да, но актуально только при сборе цифр для готовых фраз. Если парсить вордстат по словоформам для высокочастотных фраз на много страниц, то при встрече капчи программа остановится на найденных результатах и не продолжит добивать ошибочную фразу, а переключится на парсинг другой фразы, или же просто остановит сбор (если была только 1 фраза для сбора). Будет выглядеть, будто собрало до конца, а когда взглянуть в закладку «журнал событий в низу», то там будет писать что то типа «фраза ххххх ….. собрана не до конца»

Если так, то это не есть хорошо.

Нельзя быть уверенным, что соберёшь все ключи, если нужно.

orka13
На сайте с 28.03.2011
Offline
102
#538
Chyvak:
Если так, то это не есть хорошо. Нельзя быть уверенным, что соберёшь все ключи, если нужно.

Проверенный вариант для надежности: качественные более-менее персональные прокси + сервис ввода капчи.

C
На сайте с 27.12.2007
Offline
100
#539
Проверенный вариант для надежности: качественные более-менее персональные прокси + сервис ввода капчи.

Или прикрутить перебор прокси в программе - тоже неплохой вариант :)

К сожалению, эта проблема встречается почему-то во многих seo-программах, как бесплатных, так и платных.

MyOST
На сайте с 22.01.2006
Offline
559
#540
Chyvak:
Или прикрутить перебор прокси в программе

в каком виде?

просто смысл крутить "мертвый" прокси в программе? проще его сразу исключить, а сама ротация прокси в программе и так присутствует

Блог (http://seom.info/) | Ты уже SEO профессионал? (http://www.key-collector.ru/) Развиваем семантику более 8 лет! ()

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий