orka13

orka13
Рейтинг
102
Регистрация
28.03.2011
Sci:
Не получается собрать статистику по Rookeе, нажимаю кнопку и вылазит сообщение:
Нажимаю "да", как будто начинает собирать, но через секунду прекращает, нажимаю "нет" тоже не начинается сбор.

трудно просмотреть на 2 сообщения выше?

Не снимает Rookee. При парсинге "Вычислить лучшую словоформу" пишет в журнал такое:

15.02.2014 19:05:54: процесс сбора лучшей формы фраз по Rookee начат
15.02.2014 19:05:54: процесс авторизации в Rookee провалился
15.02.2014 19:05:54: процесс сбора лучшей формы фраз по Rookee завершен

В тикеты написал, но в связи с выходными быстрого решения не жду. Вопрос – у всех такое?

UPD: техподдержка ответила даже в суботний вечер, спс :). обещали исправить.

tanir23:
Такой вопрос- кто чем сортирует кейворды и сортирует ли вообще?
например так-
боковые морщины на лице|мужские морщины на лице|сильные морщины на лбу|удалить морщины на лбу|
есть ли такая программа

Key Collector /ru/forum/820446

Kashapov:
Ребзя, посоветуйте прогу, сервис для автоматического аддурла в яше, гугле мне не для доров, так для себя.
Ручками гемор несусветный.

http://byan.ru

Scarewww:
...Пример: Запрос "ванна", 2000-х тыс. слово - "Ванная сварка" - 1352(частотнось). Найдет коллектор запросы "ванна спа" (1046) и "ванны для ног спа" (33).

Уже задумывался над этим и проверял год назад. Вы все верно подметили, он НЕ найдет "ванна спа" никогда, какую бы вы глубину не задавали. А "ванны для ног спа" может найти, если вы принудительно зададите парсинг ВЧ фразы «ванна +для» (знак плюса необходим для таких приставок, поскольку вордстат игнорирует их по умолчанию), Вордстат не покажет ее, поскольку она хоть и ВЧ, но бредовая по его мнению. Такие приставки (стоп-сова) Вордстат часто игнорирует, и скрывает с ними ключи.

1. Вот список приставок которые я использую при парсинге ВЧ ключей, хвосты которых не помещаются в 2К результатов:

без
в
возле
для
для
до
за
из
к
каков
который
кроме
на
над
о
об
от
перед
по
под
при
про
против
с
сквозь
среди
у
где
зачем
как
какой
какая
какие
чей
чья
что
чем
чему
какое
когда
кто
куда
откуда
почему
сколько
можно
ли

Перемешать с ВЧ ключами легко утилитой http://www.seogenerator.ru/download/ . Не забудьте потом авто-заменой через регулярные выражения в Notepad++ заменить пробел и начало строки (« » и «^» соответственно) плюсами, а то некоторые из таких приставок проигнорятся.

2. Второй вариант: чтобы докопаться до упущенных двух-словников при парсинге ВЧ одно-словника: добавлять в стоп слова KeyCollector ключи, которые идут в паре с нашим одно-словником, и которые мы спарсим при втором круге. А именно самые часто встречаемые ключи, то есть те, что ближе к началу списка хвостов при парсинге по первому (нулевому) кругу.

3. Еще можно подключить выборку из баз (Пастухов и т.д.), но там устарелые ключи. Но зато среди кучи мусора попадаются НЧ хорошие на больше чем 7 слов в ключе (Вордстат такие скрывает).

4. Просклонять наш ВЧ-ключ ( http://morpher.ru/Demo.aspx?s=ванная ), и запустить на парсер список склонений, но с приставкой «!»:

!ванная
!ванной
!ванную

5. Последний вариант: найти 1-10К самых часто встречаемых в русском языке одно-словников, и распарсить их комбинации с нашим ВЧ одно-словником. Этого не пробовал, но идея толковая.

Вот такие приключения я нашел на свою попу, когда задачей было «Найти абсолютно все хвосты для ВЧ ключа».

Как раз обрабатываю в КК проект. Только что спарсил «KEI Яндекс» для 4К ключей через забугорные полу-приватные прокси. Капча почти на каждом запросе (3900 капч rucaptcha.com на 2к ключей). В среднем сожрало по 14 рублей на 1000 капч.

раньше так часто не встречалась капча. Наверняка виной вчерашние глюки Яшки, возможно стабилизируется ситуация со временем.

Перешел бы на биржы XML, но как писалось выше, там абонплата помесячная, а лимиты посуточные, так что всегда будет недостача или простой лимитов. Ну и в XML иногда бывает небольшая разница с реальной выдачей. Не хочется рисковать, снимаю показатели как для своих потребностей, так и для клиентов.

Злобный Гыук:
http://seozoo.ru/api/keycollector

Решил только что зарегистрироваться и попробовать. Полная фигня. Жрет деньги в несколько раз быстрее антигейта\rucaptcha.com. А результат медленный, с постоянными ошибками, и отличается от обычной выдачи немного. Хотя в ошибках может быть вина самого Яндекса, он сегодня лагает ппц.

filatd:
Добрый день. Не знаю что случилось, на на каждый запрос [KEI] по Яндексу требуется вводить капчу, в чем может быть причина?

Со вчерашнего дня такое в топике - /ru/forum/comment/12622624

Возможно, попустит, или найдется решение на днях. Видел тут предлагали через дополнительные сервисы пробовать. Но доверяю только прямому парсингу. Придется пока на ********у раскошелиться.

Продолжу свой предыдущий пост. Перепробовал еще некоторые демо\нулл десктопные варианты от конкурентов. Попадали весьма неплохие комбайны с кучей настроек и дополнительных функций. Но текстовка у них на выходе очень корявая получается, все равно надо регулярками чистить, поэтому для моих целей неразумно их приобретать.

Перебирал текстовки от PROParser и заметил неприятную ситуацию: если в программе задан «Русский поиск», то она игнорирует текстовки нерускоязычных сайтов, но это не означает, что она ищет ключ в русской выдаче (а печально). То есть если в запросе есть кириллица, то в выдаче есть сайты с ру-контентом. А вот если кириллицы нет (хотя ключ популярен в РФ), то и выдача на 99% без ру-контента, и соответственно текстовки почти не будет под такой ключ. Например, для ключа «adobe flash player 11 android» только пару строк нашло. Я не уверен как лучше исправлять такое. Возможно, поможет дополнительный параметр для GET-запроса Гугла: hl=ru&near=russia.

Еще различные пожелания, на основе теста работы конкурентов:

1. Добавить пункт с чекбоксом «Игнорировать статьи с описанием меньше ххх символов»

2. Добавить возможность парсинга с самостоятельно указанных урлов.

3. Сделать демо\триал версию программы с жестко обрезанными функциями (в конкурентов лимитирует потоки или\и максимальных размер файла текстовки). Upd: хотя бета-демо версией можно считать встроенный парсер.

4. В будущем сделать независимую от Пандоры десктопную версию.

5. Уменьшить цену до 30 вмз (это средняя цена утилит конкурентов) и\или делать периодически хорошие скидки с рекламой.

6. Добавить альтернативный поисковик\-ки (актуально на случай временного бана в гугле).

7. Добавить пункт с чекбоксом «Записывать ключи в отдельный файлы 1 в 1, без применения транслита (на данный момент только с ним работает). Я понимаю, что транслит спасает от ситуаций, когда в тексте ключа есть недопустимые для файла символы. Но как-то надо обойти эту ситуацию. Например, для таких «недопустимых» ключей делать транслит название с приставкой «_» в начале файла (чтобы вебмастер сразу их увидел среди остальной массы), а остальные называть нормально без транслита.

8. Сделать всплывающие подсказки при наведении курсора на элементы интерфейса.

kxk:
orka13, +1 Я тоже хочу сей парсер, тикетка раздражает, хочу возврата к общению по icq

ТС любезно предложил несколько часов бесплатного теста возможностей плагина «PRO Parser - парсер текста». Вот что получилось из него выжать:

Глюки (мелкие):

1. У меня на Windows 7 при сворачивании окна плагина во время парсинга трудно добиться обратного разворачивания. Приходится несколько раз кликать. Попускает его в момент парсинга страницы гугла (слышно звук-щелчок поиска).

Приятные моменты:

Блокировки без проблем обошлась антигейтом. За час на дефолтных настройках спарсило ~ 15 Мб русского текста. При этом встретилось только две капчи. Дефолтный парсер зависал при встречи капчи, и поэтому успевал собрать обычно до 2 Мб текста (быстрее ее встречал, так как там нет «параметр задержки между обращения в гугл: от и до»).

Потом для увеличения мощи опробовал задержки в два раза занизить и потоков выставил в полтора раза больше. В результате за час спарсило 20 мб, это обработало 130 ключей (по 100 страниц доноров из выдачи гугла под каждый ключ). Причем я уже включил «фича парсинга текста в разные файлы для каждого ключа». Для примера вот один из запросов: «limbo скачать на андроид». Под него создало файл limbo-skachat-na-android.txt.

И того в сумме я за пару часов я спарсил 70 Мб текста, при этом гугл меня не банил, и выдал всего ~10-15 капчей. Так что результатом доволен.

Пожелания в развитии:

1. Добавить возможность задания стоп слов для урлов доноров (*yotube* и т.д.)

2. Сделать строку отображения прогресса парсинга (процентное соотношение), можно с таймером окончания операции).

3. Сделать кнопку сохранения настроек в файл, или указать, как дефолтные настройки подправить. Например, для меня удобно было бы прописать туда свой ключи антигейта, и установить максимальный размер не в 1 мб, а в 100, прописать «Русский» парсинг. А то устал каждый раз при запуске прописывать все это.

4. Добавить в лог интерфейса «Выполнение» временное отображение события (такое же как «ProParserLog.txt», только без даты).

5. Стоило под плагин мануал написать. Например, я не сразу понял алгоритм парсинга. А он такой: программа берет по очереди каждый ключ и парсит текстовки из сайтов на первой странице выдачи гугла (100 сайтов на страницу). Когда все ключи обработаны, она не останавливает парсинг, а проделывает то же, но уже для второй страницы выдачи. И так аж по 10-ую страницу (1000 сайтов-доноров на запрос). Я останавливал парсинг после первого круга.

Продолжаю разбираться с Пандорой. Есть желание докупить «PRO Parser - парсер текста (плагин к PandoraBox)», так как встроенный парсер зависает на больших объёмах, либо ловит отказ гугла (типа «слишком много запросов в вашей сети»).

Есть здесь пользователи, которые активно гоняют этот плагин? Стоит продукт своих денег? Не повторяются ли в нем ошибки встроенного аналога?

Всего: 532