Key Collector - автоматизированная система анализа семантического ядра. Часть 4.

MyOST
На сайте с 22.01.2006
Offline
559
#141
Anton:
Прошу объяснить как работать с Yandex.XML через прокси в несколько потоков.

в данный момент многопоточность парсинга XML не поддерживается

В планах есть, реализовано будет позже.

Блог (http://seom.info/) | Ты уже SEO профессионал? (http://www.key-collector.ru/) Развиваем семантику более 8 лет! ()
A
На сайте с 29.12.2005
Offline
118
#142
MyOST:
в данный момент многопоточность парсинга XML не поддерживается

Это уже понятно, ну а прокси то из списка, указанные в настройках Yandex.XML в формате с диезом (#), по очереди перебирает? Или долбает до упора в первую/случайно взятую итп?

MIND
На сайте с 08.03.2007
Offline
238
#143
Anton:
Это уже понятно, ну а прокси то из списка, указанные в настройках Yandex.XML в формате с диезом (#), по очереди перебирает? Или долбает до упора в первую/случайно взятую итп?

На данный момент должен долбить до тех пор, пока в лимит не упрется. Затем берет следующий акк. Каши из форматов не допускается.

Key Collector - автоматизированная система анализа семантического ядра (/ru/forum/863504)
A
На сайте с 29.12.2005
Offline
118
#144

А вот еще загадочка.

Запустил сбор данных для вычисления KEI с яндекса, одновременно с этим работает съем позиций, все это работает через YXML, сборщик KEI снял пару тысяч значений и издох:

14.06.2011 22:51:41: процесс вычисления составляющих Yandex для KEI начат

14.06.2011 22:51:41: парсинг KEI при активированном Yandex.XML возможен только в однопоточном режиме. Парсинг будет начат в один поток
14.06.2011 22:51:43: возникла ошибка при работе с Yandex.XML: Синтаксическая ошибка
14.06.2011 22:51:43: выполняется попытка использования очередного аккаунта Yandex.XML [company]

И не запускается больше.

Съем позиций перезапускается и работает нормально.

MIND
На сайте с 08.03.2007
Offline
238
#145

Anton, скоро пересмотрим систему. Спасибо за сообщение

A
На сайте с 29.12.2005
Offline
118
#146

Косяк с синтаксической ошибкой отдебажил. Оказалось, что он вылезает, когда в ключевом слове встречается двоеточие ":".

S2
На сайте с 07.01.2008
Offline
611
#147
Anton:
Оказалось, что он вылезает, когда в ключевом слове встречается двоеточие ":".

Там вроде можно настроить, чтобы вырезались определённые символы.

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
A
На сайте с 29.12.2005
Offline
118
#148
Str256:
Там вроде можно настроить, чтобы вырезались определённые символы.

Можно, но это допустимо при генерации семядра. У меня же идет анализ того, что есть на сайте и лежит в БД, поэтому приходится анализировать то, что есть и именно в том виде, в каком оно есть, тк потом результаты этого анализа заносятся обратно в базу и тут вольности с вырезанием спецсимволов итп недопустимы.

S2
На сайте с 07.01.2008
Offline
611
#149

Статистика ПС эти символы вырезает или ключи с ними игнорирует. Найдите дубли в базе данных различающиеся только знаками препинания. И анализируйте их отдельно.

A
На сайте с 29.12.2005
Offline
118
#150

Так мне потом из csv экспорта все это в базу обратно записывать нужно, а чтобы записать, нужно запись найти по точному совпадению кея, поэтому ничего резать нельзя. Как ПС реагирует на эти спецсимволы меня не особо волнует.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий