Anton

Рейтинг
118
Регистрация
29.12.2005

А вот еще загадочка.

Запустил сбор данных для вычисления KEI с яндекса, одновременно с этим работает съем позиций, все это работает через YXML, сборщик KEI снял пару тысяч значений и издох:

14.06.2011 22:51:41: процесс вычисления составляющих Yandex для KEI начат

14.06.2011 22:51:41: парсинг KEI при активированном Yandex.XML возможен только в однопоточном режиме. Парсинг будет начат в один поток
14.06.2011 22:51:43: возникла ошибка при работе с Yandex.XML: Синтаксическая ошибка
14.06.2011 22:51:43: выполняется попытка использования очередного аккаунта Yandex.XML [company]

И не запускается больше.

Съем позиций перезапускается и работает нормально.

MyOST:
в данный момент многопоточность парсинга XML не поддерживается

Это уже понятно, ну а прокси то из списка, указанные в настройках Yandex.XML в формате с диезом (#), по очереди перебирает? Или долбает до упора в первую/случайно взятую итп?

Прошу объяснить как работать с Yandex.XML через прокси в несколько потоков.

А более конкретно вот это:

14.06.2011 18:09:12: начат парсинг позиций по Yandex

14.06.2011 18:09:12: в настоящий момент многопоточность съема позиций Yandex доступна только для прямого доступа. При использовании Yandex.XML используется 1 поток

Используется второй формат, тот который с #начинается.

И оно реально пилит в один поток. ~1 запрос в секунду. :(

Anton добавил 14.06.2011 в 18:34

А хоть и пилит в 1 поток, то долбит то только через одну проксю, что в списке под галкой "Использовать Yandex.XML" или же перебирает их по кругу?

Косяк при многопоточном парсинге.

Нужно делать случайно генерируемый таймаут, тот что на вкладке с общими настройками задается, ДО отправки запроса, а не после, иначе имеем такую ситуацию, что при парсинге в 255 потоков при старте парсинга ПС синхронно получает 255 запросов буквально из одной сети, хотя и с разных ипов и на всякий пожарный случай просит 255 раз ввести капчу. Если же начинать парсинг в 10 потоков например, а потом потихоньку прибавлять количество потоков и в конце концов разогнаться до 255, то парсинг уже идет нормально, тк набегают случайные интервалы между запросами и они не идут синхронно.

Anton добавил 11.06.2011 в 16:27

Еще по поводу стабильности информация.

Под XP длительная работа с проектами в 40к кеев часто вызывает полный крэш системы. Перешел на Win7, стало намного лучше, 40к кеев проблем не вызывает, но сама проблема не решилась, просто масштабы немного изменились. Теперь характерная цифра сместилась ближе к цифре в 100к кеев. Например сейчас проект в 130к кеев не может работать дольше ~8 часов. Падает абсолютно стабильно и не всегда автосохранение помогает, видимо бъется файл и не всегда открывается.

Насколько я понял, автосохранение делается в файл keycollector_autosave.ywp в папке с KC. Правильно?

А куда делается резервная копия проекта при открытии?

А есть ли возможность как то объединить несколько проектов в один?

Ситуация следующая: обрабатывал миллион кейвордов, поделил все на 50 проектов по 20к. Отпарсил часть параметров, по результатам получил 100к годных для дальнейшей работы. Но они раскиданы по разным файлам. Копипастом не получается, никакого импорта из читабельного формата типа CSV не предусмотрено. А все, что нужно то, это объединить все строчки с ненулевым вордстатом, например, в один новый проект.

Какие будут идеи?

Мелкий косяк. Кстати, изменилось что-то с последним апдейтом, теперь при открытии проекта "найдено результатов" = 0, а раньше показывалось общее количество кеев в проекте.

jpg err01.jpg
MIND:
Версия 2.1.28 (от 22.05.2011):
- исправлена возможная проблема при открытии проектов.

Спасибо. Теперь открываются нормально.

Отловил конкретный косяк.

После обновления с версии 2.1.24 на 2.1.27 перестала открываться часть старых проектов.

Откатываю версию назад, открываются без проблем. Сами ywp файлы в порядке без видимых проблем. Пишутся/читаются, внутри XML вменяемый.

jpg err.jpg
stabuev:
А по соотношению цена/качество так самую лучшую.

Да, реально полезнейшая тулза. Первая полезная за последние пару лет.

Что до цены, то она просто условно-бесплатная.

Всего: 620