orka13

orka13
Рейтинг
102
Регистрация
28.03.2011

2Dram:

Все просто. Для этого есть схема, в зависимости от ресурсов только надо правильно подобрать последовательность действий. Сегодня такое делал для одного сайта.

1. Собираем для конкретного сайта ключевики с LI (верхняя кнопка посредине панели сбора данных. Получаем туеву хучу (допустим 20к) запросов: 95% всякие пустышками с вариациями на НЧ и 1-2 переходами (да, переходы программа также стянет с LI)

И тут, исходя их ТЗ автора темы, по очереди нас ждет сбор позиций сайта по этим вопросам. НО категорически НЕ рекомендую делать это первым, так как для 20K надо будет сотню персональных прокси и ХМЛ. А вряд ли это есть у человека, который вчера прикупил КК. Лучше сначала отсеять по цифрам из частотности пустышки.

2. Собираем Частотность «!» - для 20К без прокси здесь никак (пойдут и низкокачественные).

3. Рассчитываем KEI. Пускай самым банальными способом «YandexWordstatBaseFreq / (YandexWordstatQuotePointFreq + 0.01)» - это «(Базовая Частотность \ Частотность «!»)» без округления. Прописать можно в «Настройки-KEI-Формула…»

4. Отсеиваем те, что не подходят по КЕI и по частотностям.

5. Только теперь чекаем на позиции в Яшке (надо качественные прокси + ХМЛ).

6. Снимаем показатели агрегаторов, чтобы ориентироваться в затратх.

7. Экспортируем проект для Sape, если будем прикупать под странички ссылочную массу.

Если не спешно, и нет прокси под руками, то помогу за спасибо. Когда освобожусь от горящих проектов, сделаю за отзыв в ближайшие сутки-две. Стукните в ПП сейчас.

Вот реально так было бы гораздо удобнее, учитывая кризисную ситуацию на сегодняшней день по рабочих прокси для Яшки. Отписал это дополнение в тикеты уже.

Собираю тут парочку важных для меня нюансов в тикет. Поделюсь одним, может есть решение, а я туплю:

«Этот пункт не так важен, чисто в плане юзабилити будет приятней. Очень часто использую закладку «Сеть» в настройках, когда проверяю список прокси (список очень большой, не влезает без полосы прокрутки). Так вот постоянно надо расширять окошко, чтобы увидеть там самый важный параметр – сколько рабочих прокси осталось в программе во время парсинга (часто отбрасывает некачественные прокси в работе). Рекомендую либо сместить его вывод в центр возле «Количества потоков», либо обрезать максимальную ширину поля с ячейками IP (на втором скрине зеленым цветом) на 10-20%, чтобы все влезало.»

Chyvak:
Или прикрутить перебор прокси в программе - тоже неплохой вариант :)
К сожалению, эта проблема встречается почему-то во многих seo-программах, как бесплатных, так и платных.

Вы все-таки не поняли сути. Как раз при переключении прокси из-за встречи капчи и происходит обрыв парсинга страниц левой колонки словоформ вордстата для конкретной фразы. Если ввести капчу и не менять прокси, то будет продолжаться нормальный процесс.

Или все будет гут, если у нас нет фраз у которых больше 1 страницы в левой колонке (одни низкочастотники).

Chyvak:
Если так, то это не есть хорошо. Нельзя быть уверенным, что соберёшь все ключи, если нужно.

Проверенный вариант для надежности: качественные более-менее персональные прокси + сервис ввода капчи.

easykeys:
возможно ли собирать KEI в многопоточном режиме?
вордстат парсит в многопоточном
морд/вхождений в топ-10 только по одному. не могу понять в чем дело
или это нереально?

Для Гугла и Яндекса есть отдельно два параметра: «Настройки - Парсинг – Поисковая выдача – К-во потоков». Только у Яшки при ХМЛ много-поточность игнорируется (гляньте в закладку «Журнал событий» при начале сбора. Все решается сильным уменьшением таймингов в глобальных настройках «Настройки - Парсинг – Общие – Таймауты от» (хоть до 100 мс). То есть в 1 поток при 10 шт ХМЛ будет делать 10 запросов в секунду. Правда не всегда рандомно собирает одинаково со всех указаных ХМЛ. Я использовал формат ввода ХМЛ №2, птичку с использования глобальных прокси снимал (вроде так надо, когда прокси прописаны в самом логине ХМЛ, пускай авторы уточнят). С некоторых логинов намного скорее собирало и лимит в 1к запросов в сутки, приходилось их местами менять периодически

Понятно, что для яшки лучше десяток надёжных прокси и столько же ХМЛ логинов, чем даже две сотни малокачественных прокси, с которых, пускай даже 100% еще не закапчены. К Вам там быстро капча в гости приходит без ХМЛ, это не Вордстат. Для гугла проще. Даже в низкокачественных покупных русскоязычных прокси он редко в бане, так как у нас больше Яндекс напрягают вебмастера. Если очень надо по быстрому, то можно ставить паузы (таймауты) хоть в одну секунду и пускай автоматом переключает прокси при встрече капчи. НО это не вордстат для готовых фраз, когда при ошибке потока у нас будет пустое поле в ячейке вместо цифры. Здесь при переключение прокси из-за встречи капчи нам заполнит нулями поля с количеством вхождений главных\заголовков на исследуемой фразе, и отследить какие фразы ошибочно занулило не получится, будет много неправильных результатов. Простыми словами: для высоко-конкурентных ошибочных фраз будет выглядеть что в выдаче нет конкурентов. Так что лучше использовать все те же надежные прокси с вводом капчи и таймаутами на уровне 1-5 секунды.

Для остальных ПС: «Настройки - Парсинг – KEI – К-во потоков».

Chyvak:
1) А Key Collector перебирает прокси при неудачных запросах?
А то тестировал Словоеб - не получается парсить вордстат через прокси (выдаёт ошибки, хотя прокси прочеканы самим Словоебом и через другой софт работают с вордстатом). Может просто Словоёб давно не обновлялся?
2) Какие типы прокси нужны для этой софтины (http, https, socks4, socks5)?

1) Да, но актуально только при сборе цифр для готовых фраз. Если парсить вордстат по словоформам для высокочастотных фраз на много страниц, то при встрече капчи программа остановится на найденных результатах и не продолжит добивать ошибочную фразу, а переключится на парсинг другой фразы, или же просто остановит сбор (если была только 1 фраза для сбора). Будет выглядеть, будто собрало до конца, а когда взглянуть в закладку «журнал событий в низу», то там будет писать что то типа «фраза ххххх ….. собрана не до конца»

2) Работал только с http. Под разные типы парсинга подойдет разное качество\количество. Разница приводилась мной на последней странице.

Здесь вопрос очень сложен и индивидуален. Возможно когда созрею, то создам свой блог и там все в картинках разжую. Ниженаписанное подходит для ситуации, когда у Вас уже есть список спаренных запросов, и только осталось частотности снять (первые три колонки). Если же вам надо искать словоформы или парсить выдачу, то тогда лучше XML-профили и совсем другая инструкция.

В Глобател рекомендуют до 5 запросов в минуту, чтобы не уйти в бан и не словить капчу. Значит 12 секунд таймаут (задержки между запр.). Но там на одном прокси, если верить их админам) сидит 1 (реже 2) клиента, так что IP надёжные, не надо с ними рисковать и превышать лимит. Минус – очень дорого для начинающего вебмастера позволить себе 50 прокси. Обычно там берут 5-10 штук (10-20 вмз\месяц). Хотя аналогов особенно нет среди персональных ру-прокси.

Если же вы используйте низкокачественное покупные не персональные прокси (в месяц сотня IP за пару баксов), или же просто бесплатные, то здесь все дело в этике. Они все равно уйдут в бан, так как на них десятки, а то и сотни таких же вебмастеров парсят. Если не жалко ни их ни соседей (вот и вопрос этики) то можно ставить таймаут поменьше, но тогда словим капчу со временем. Распознавать ее даже через сервис ********и нет смысла, все равно скоро повторится, просто пускай программа переключает прокси.

НО есть паблик прокси низкого качества в забугорных сетях. Их часто банит Гугл, а вот для Яндекса можно использовать, на них меньше наших вебмастеров сидит. Так что если в вашей тысяче паблик прокси есть хоть пятая часть более-менее не переспаспамленых для Яшки, то НЕ снижайте таймаут. Также это касается людей, которым надо спарсить >100к запросов и времени много. Так сказать, лучше потихоньку, чем быстро и в капчу\бан.

Вот на быструю руку схема для десяти качественных персональных и тысячи паблик прокси. Кому приспичит за деньги снять именно с готовых фраз частотности – могу в перерывах между своими делами, если есть простой компов, полмиллиона-миллион запросов в сутки, от 25 вмз\100к.

П.С. Забыл о проверке пакетов прокси и потоки. Для персональных прокси количество потоков = количеству проверенных IP (в идеале для них даже капчи не должно быть). Для тысячи пабликов = ставим 60-80% от количества IP, которые пройдут проверку. Допустим у нас все прошли. Но потом много отключит из-за капчи уже в процессе сбора.

Не нравится, что данные в колонке KEI «Кол-во вхождений в заголовок в ПС» снимаются не совсем корректно. Когда ищу низко-конкурентные тематики, то данная колонка очень важна.

Для фразы «москва окна» сайт с заголовком «москва окна» зачисляет в колонку, а вот сайт «окна москва» - НЕТ. То есть если слова идут не в том порядке, что в исследуемой фразе, то их отбрасывает. Можно будет ждать в ближайшее время исправлений?

Damirov:
Выше вроде бы написано, что модуль DLE

Вопрос о тонкости работы с смс ПП. Там можно сливать на мидлеты средствами ДЛЕ через модуль, либо через хтачесс (не зависит от движка).

Вижу тема активно живет сам еще Фантиков не пробовал и нет возможности протестировать. Так что прошу приблизительно оценить возможности теоретического сайта:

Тематика Андроид Игры\Программы\Инструкции. В сутки: Трафик 1к, просмотров 5к. 80% Россия, 50% с телефона.

Определите, пожалуйста, приблизительный заработок в месяц. Я понимаю, что у каждого сайта свои особенности. Но интересует просто приблизительные показатели, чтобы знать есть ли смысл менять курс с мидлетных СМС-партнерок на белые варианты монетизации. Так как в последнее время ПС активно банят нечестный заработок.

Всего: 532