Хочу услышать ваше мнение о новой сборке, теперь яндекс нормально парсится?
Новая сборка программы, скачать можно по адресу http://seofork.ru/yast/YASTKeywords.zip
Обновлен парсер под новую верстку вордстата.
Теперь то в капчу не сваливается?
В связи с высокой загруженностью, кардинальная переделка парсера переносится на конец февраля.
Выложена версия 0.1.1.29 в которой произведена адаптация алгоритма работы с вордстатом и позволяющая избежать капчи.
Скачать YASTKeywords v.0.1.1.29
А что не так с капчей? Капча начинает появляться в зависимости от частоты обращений к вордстату с вашего айпишника. Если в течении 3..5 секунд запрашивалось более 1 слова - капча до окончания суток.
Не хотите чтобы капча появлялась - не анализируйте более одного слова за раз.
mawr добавил 04.12.2009 в 10:06
Значит с вашего айпишника были в этот момент запросы к вордстату с другими словами. Это проверено экспериментально. Например, работает Yast Keyword, анализирует слово "покер", в этот момент начинаем анализ следующего слова или из браузера обращаемся к вордстату и проверяем слово "пластиковые окна" - 100% капча. А вот если спокойно анализируем слово "покер", не дергая вордстат, и переходим к следующему слову ("покер скачат") ТОЛЬКО ПОСЛЕ того как анализ закончен (часики сменились на синюю булавку) - никаких капч не наблюдается.
Поиск mail.ru обеспечивается яндексом, берем пример: http://go.mail.ru/search?mailru=1&q=%EF%EE%EA%E5%F0 - "Найдено сайтов: 4'448, документов: 24'264'437". Сам яндекс (http://yandex.ru/yandsearch?text=покер) дает такую статистику: "Нашлось
24 млн страниц". Почему такое недоверие к цифре 4448?
Проблема вордстата, достигал такого в браузере, при ручном анализе.
Если информация по фразам с вопросами важна - анализируйте эти фразы (и знаки ? заменятся на цифры), если они не нужны - просто удаляйте.
С количеством фраз - проверю.
Чтобы не было капчи, не начинайте анализ следующий фразы, не дождавшись окончания анализа предыдущей!
Капча вылезает ТОЛЬКО при одновременном обращении к вордстату с разными ключевиками!
Новый релиз: YAST Keywords v.0.1.1.25
В новой версии:
1. Количество точных запросов в Яндексе теперь получается достоверно точно из самой статистики wordstat-а (при помощи кавычек и знака восклицания)
2. На основе числа точных запросов и сайтов в индексе, высчитывается коэффициент эффективности ключевой фразы KEI (Keyword Efficiency Index) см. описание
+ Ряд мелких исправлений найденных ошибок
Прошу обновить версию, погонять ее и дать отзывы/замечания/пожелания.
З.Ы. ИМХО KEI надо высчитывать по числу страниц для точного запроса (в кавычках), а сейчас считается по общему. Корректно ли это? Если нет, то как лучше сделать:
1. Оставить как есть.
2. Получать число страниц в индексе по точному запросу и высчитывать KEI на его основе.
3. Получать число страниц по точному и по общему запросу, KEI считать по точному - тут будет лишний запрос и захламление таблицы.
Как лучше сделать?
Упс! Мне в гору :( Хэлпа не читал...
Итак, точная статистика будет вычисляться по самому вордстату при помощи кавычек и знака восклицания.
Теперь касательно статистики рамблера, яндекса и накруток. Может сделать какой нибудь коэффициент? Ибо просто разместить рядом цифры вордстата и рамблера не есть наглядно....
Про вордстат xml так ничего и не нашел...
Следующий вопрос к общественности: Все больше склоняюсь к предположению Stripe, о том, что узнать точное число запросов можно в вордстате, используя кавычки ("), однако, полагаю что символ восклицательного знака (!) излишен, что об этом думаете? Стоит ли заменить алгоритм вычисления точных запросов на основе перерасчета статистики рамблера на алгоритм Stripe-а, и нужна ли в таком случае статистика рамблера вообще?