mawr

Рейтинг
12
Регистрация
27.10.2009

Хочу услышать ваше мнение о новой сборке, теперь яндекс нормально парсится?

Новая сборка программы, скачать можно по адресу http://seofork.ru/yast/YASTKeywords.zip

Обновлен парсер под новую верстку вордстата.

Теперь то в капчу не сваливается?

В связи с высокой загруженностью, кардинальная переделка парсера переносится на конец февраля.

Выложена версия 0.1.1.29 в которой произведена адаптация алгоритма работы с вордстатом и позволяющая избежать капчи.

Скачать YASTKeywords v.0.1.1.29

Mike05:
Автор, ну появись же, и поправь эту капчу, плиз. При запуске слова (часто прямо первого) она что-то качает и дальше всегда капча. Почему Магадан часами автопарсит, а здесь сразу капча? Хорошая по задумке прога, а пользваться практически невозможно.

А что не так с капчей? Капча начинает появляться в зависимости от частоты обращений к вордстату с вашего айпишника. Если в течении 3..5 секунд запрашивалось более 1 слова - капча до окончания суток.

Не хотите чтобы капча появлялась - не анализируйте более одного слова за раз.

mawr добавил 04.12.2009 в 10:06

Mike05:
1. Капча появляется и при последовательном вводе запросов, даже после больших пауз. Причем, их теперь по две на запрос - совсем тоскливо. Сегодня запустил, сделал один запрос, отвлекся, через 15 мин запустил второй - сразу капча.

Значит с вашего айпишника были в этот момент запросы к вордстату с другими словами. Это проверено экспериментально. Например, работает Yast Keyword, анализирует слово "покер", в этот момент начинаем анализ следующего слова или из браузера обращаемся к вордстату и проверяем слово "пластиковые окна" - 100% капча. А вот если спокойно анализируем слово "покер", не дергая вордстат, и переходим к следующему слову ("покер скачат") ТОЛЬКО ПОСЛЕ того как анализ закончен (часики сменились на синюю булавку) - никаких капч не наблюдается.

Mike05:
2. Что-то показатель Яндекс(сайтов) не то показывает. Например, по слову "покер" 4560 сайтов - чушь, их на порядки больше.

Поиск mail.ru обеспечивается яндексом, берем пример: http://go.mail.ru/search?mailru=1&q=%EF%EE%EA%E5%F0 - "Найдено сайтов: 4'448, документов: 24'264'437". Сам яндекс (http://yandex.ru/yandsearch?text=покер) дает такую статистику: "Нашлось

24 млн страниц". Почему такое недоверие к цифре 4448?

Mike05:
3. Подтверждаю случаи неостановимого повторного ввода капчи без результатов.

Проблема вордстата, достигал такого в браузере, при ручном анализе.

Mike05:
4. Почему на достаточно мощном компе 25к строк кейвордов загружаются в прогу более 15 минут (забирая 100% одного из 4х процессоров) - для меня загадка. Автор, чем она занимается? Расскажите алгоритм, и наверняка придумаем, как это ускорить.

Занимается заполнением тормозного контрола ListView, который в ближайших версиях будет заменен на быстродействующий аналог.

Mike05:
5. Мелочь, но отображение номера текущей фразы рядом с общим их числом внизу - обязательно. Иначе фих что можно найти, где остановился.

Уже в туду листе.

Mike05:
6. Выделение нескольких фраз и последовательная обработка подряд - _очень_ желательна.

Справедливо, занес в туду.

Mike05:
7. КЕИ - по ощущениям, ничего полезного не показывает, хотя может это из-за глюка с числом сайтов.

Для многословных ключевиков (3 и более слов) - чем выше, тем проще продвигать. Для более коротких, согласен, безсмысленен.

Mike05:
...если бы побороть капчи - цены бы ей не было...

При последовательном анализе капчи не возникает. ТОЛЬКО при одновременном (~3 сек) обращении к вордстату с РАЗНЫМИ ключами с одного IP.

Mike05:
И еще. Вот сейчас вновь запустил прогу, проверка первой фразы - думала минуты 4, причем отследил - все время был активный обмен с инетом, закачала порядка 19Мбайт. Очень интересно, что это такое?

Запрос к вордастату для нахождению точного числа запросов, затем к мэилу для числа сайтов, затем опять к вордстату для поиска ВСЕХ ассоциаций, затем логин на рамблер, и адстатат по всем страницам для поиска рамблеровских ассоциаций.
Но! 19 мегабайт - это перебор, может в этот момент винда обновлялась или еще что-то качалось?

Mike05:
И еще вопрос к автору. Если фраза уже была проверена, а потом проверяется вновь, как прога поступает с новыми значениями? Такое впечатление, что если старое было больше нового, то оно не меняется.

Именно так и работает.

mawr добавил 04.12.2009 в 10:11
Mike05:
Автор, ну появись же, и поправь эту капчу, плиз. При запуске слова (часто прямо первого) она что-то качает и дальше всегда капча. Почему Магадан часами автопарсит, а здесь сразу капча? Хорошая по задумке прога, а пользваться практически невозможно.


Что за магадан? Киньте в меня линком плиз.

Если информация по фразам с вопросами важна - анализируйте эти фразы (и знаки ? заменятся на цифры), если они не нужны - просто удаляйте.

glomen:
*25 работает шустрее чем *22 , но как то мне кажется фраз меньше находит , в *22 больше в разы было.
и что-нибудь с капчей можно сделать ? А то уже не могу ее видеть =)

С количеством фраз - проверю.

Чтобы не было капчи, не начинайте анализ следующий фразы, не дождавшись окончания анализа предыдущей!

Капча вылезает ТОЛЬКО при одновременном обращении к вордстату с разными ключевиками!

Новый релиз: YAST Keywords v.0.1.1.25

В новой версии:

1. Количество точных запросов в Яндексе теперь получается достоверно точно из самой статистики wordstat-а (при помощи кавычек и знака восклицания)

2. На основе числа точных запросов и сайтов в индексе, высчитывается коэффициент эффективности ключевой фразы KEI (Keyword Efficiency Index) см. описание

+ Ряд мелких исправлений найденных ошибок

Прошу обновить версию, погонять ее и дать отзывы/замечания/пожелания.

З.Ы. ИМХО KEI надо высчитывать по числу страниц для точного запроса (в кавычках), а сейчас считается по общему. Корректно ли это? Если нет, то как лучше сделать:

1. Оставить как есть.

2. Получать число страниц в индексе по точному запросу и высчитывать KEI на его основе.

3. Получать число страниц по точному и по общему запросу, KEI считать по точному - тут будет лишний запрос и захламление таблицы.

Как лучше сделать?

Str256:


Следующий вопрос к общественности: Все больше склоняюсь к предположению Stripe, о том, что узнать точное число запросов можно в вордстате, используя кавычки ("), однако, полагаю что символ восклицательного знака (!) излишен, что об этом думаете? Стоит ли заменить алгоритм вычисления точных запросов на основе перерасчета статистики рамблера на алгоритм Stripe-а, и нужна ли в таком случае статистика рамблера вообще?


! - позволяет узнать число показов конкретной словоформы. Как без него узнать, что показов по бесплатные фильмы в полторы сотни раз больше чем по бесплатный фильм?

Это блин не предположение, это в хэлпе вордстата написано:(

и нужна ли в таком случае статистика рамблера вообще?

Она полезна, чтобы определить накрутку. Скажем по Я число показов тысячи, а по рамблеру ноль.

Упс! Мне в гору :( Хэлпа не читал...

Итак, точная статистика будет вычисляться по самому вордстату при помощи кавычек и знака восклицания.

Теперь касательно статистики рамблера, яндекса и накруток. Может сделать какой нибудь коэффициент? Ибо просто разместить рядом цифры вордстата и рамблера не есть наглядно....

Str256:
Мне кажется имеется ввиду, что если зарегистрировать свой IP, то 1000 запросов будут доступны легально и бесплатно: http://help.yandex.ru/xml/licence.xml Насчёт вордстата, я тоже не уверен.

Про вордстат xml так ничего и не нашел...

Следующий вопрос к общественности: Все больше склоняюсь к предположению Stripe, о том, что узнать точное число запросов можно в вордстате, используя кавычки ("), однако, полагаю что символ восклицательного знака (!) излишен, что об этом думаете? Стоит ли заменить алгоритм вычисления точных запросов на основе перерасчета статистики рамблера на алгоритм Stripe-а, и нужна ли в таком случае статистика рамблера вообще?

123 4
Всего: 35