Key Collector - автоматизированная система анализа семантического ядра. Часть 4.

MyOST
На сайте с 22.01.2006
Offline
559
#131
medea:
от пытаюсь понять, почему так произошло и какие данные ближе к истине.

ближе к истине последние данные, с учетом сезонности в том числе, причину таких разночтений я в скрине показал, это обновление базы вордстата.

Блог (http://seom.info/) | Ты уже SEO профессионал? (http://www.key-collector.ru/) Развиваем семантику более 8 лет! ()
A
На сайте с 29.12.2005
Offline
118
#132

Насколько я понял, автосохранение делается в файл keycollector_autosave.ywp в папке с KC. Правильно?

А куда делается резервная копия проекта при открытии?

Эртэд
На сайте с 18.01.2006
Offline
155
#133

Купил вчера программу. Сразу несколько вопросов:

1) Программа заработала.

Однако, никак не хотят парситься данные по сеопульту:

09.06.2011 22:38:45: процесс сбора статистики SeoPult начат

09.06.2011 22:43:11: ошибка доступа к панели SeoPult после авторизации: ошибка добавления кейвордов в проект

...

10.06.2011 0:42:58: ошибка доступа к панели SeoPult после авторизации: ошибка добавления кейвордов в проект

Вручную под этими же данными авторизация на сеопульте с моего ипа осуществляется без проблем.

Как решить эту проблему?

2) По каким то причинам вырубило софтину в 3:16, в 5:20 я это заметил и отправил об этом сведения в Microsoft (стандартная операция когда приложение под Windows 7 "рухнуло").

Авто сохранение было настроено, да я и сам сохранял проект вручную в 2 ночи.

В проекте напарсено 31416 слов. Для всех слов я еще в 12 ночи запустил парсинг данных всех доступных бирж ссылок (для каждой, разумеется, предварительно создав новый аккаунт).

Так вот, когда я запустил рухнувшее приложение, меня спросила софтина восстановить ли результат автосохранения? Я ответил: "Да", после чего проект был восстановлен.

1) Однако, вся информация по тому сколько слов напарсено с бирж ссылок - исчезла. То есть я запустил парсинг каждой биржи и он пошел ЗАНОВО. Почему так?...

2) Более того, у каждой биржи не сохранились вбитые мною значения (логин/пароль к бирже и урл проекта для парсинга). Пришлось снова вбивать. Это конечно не критично, но этого явно не должно быть. Или я что-то не так сделал?

3) Как работать с большим количеством слов и чтобы напарсенные результаты по биржам в случае некорректного или корректного закрытия приложения продолжались бы с места, на котором остановился парсинг (т.е. следуя Общим настройкам, чтобы продолжались заполняться только незаполненные ячейки)?

Дарите домашнюю одежду (http://www.pijama.ru/) | Seo бложок (http://www.siteprojects.ru/blog/) | Я тоже папа (http://www.crazypapa.ru/)!
MyOST
На сайте с 22.01.2006
Offline
559
#134
Эртэд:
Вручную под этими же данными авторизация на сеопульте с моего ипа осуществляется без проблем.

Как решить эту проблему?

на емайл отправляйте config.xml

Эртэд:
2) По каким то причинам вырубило софтину в 3:16, в 5:20 я это заметил и отправил об этом сведения в Microsoft (стандартная операция когда приложение под Windows 7 "рухнуло").

ждем RunError.txt который в папке с коллектором создается, посмотрим что там рухнуло

Эртэд:
1) Однако, вся информация по тому сколько слов напарсено с бирж ссылок - исчезла. То есть я запустил парсинг каждой биржи и он пошел ЗАНОВО. Почему так?.

видимо потому, что рухнуло до автосохранения и эти данные не успели сохраниться, если вообще были отпаршены

Эртэд:
2) Более того, у каждой биржи не сохранились вбитые мною значения (логин/пароль к бирже и урл проекта для парсинга). Пришлось снова вбивать. Это конечно не критично, но этого явно не должно быть. Или я что-то не так сделал?

логично, если завершение работы программы внештатное, то конфиг файл не сохранился

вобщем вопросы 1-3 пока не в тему, до выяснения причин обружения программы на Вашей системе, любые несохранения и прочие проблемы будут отсутствовать после выяснения причин, по которым она упала. Фреймворк или еще что-то, ждем файл RunError.txt

SK
На сайте с 13.09.2010
Offline
18
#135

Почему-то, КС перестал забирать данные с Вордстата при большом количестве стоп-слов (условие: использовать при запросе).

MIND
На сайте с 08.03.2007
Offline
238
#136
Anton:
А куда делается резервная копия проекта при открытии?

в Projects Backups в папке с программой

Key Collector - автоматизированная система анализа семантического ядра (/ru/forum/863504)
A
На сайте с 29.12.2005
Offline
118
#137

Косяк при многопоточном парсинге.

Нужно делать случайно генерируемый таймаут, тот что на вкладке с общими настройками задается, ДО отправки запроса, а не после, иначе имеем такую ситуацию, что при парсинге в 255 потоков при старте парсинга ПС синхронно получает 255 запросов буквально из одной сети, хотя и с разных ипов и на всякий пожарный случай просит 255 раз ввести капчу. Если же начинать парсинг в 10 потоков например, а потом потихоньку прибавлять количество потоков и в конце концов разогнаться до 255, то парсинг уже идет нормально, тк набегают случайные интервалы между запросами и они не идут синхронно.

Anton добавил 11.06.2011 в 16:27

Еще по поводу стабильности информация.

Под XP длительная работа с проектами в 40к кеев часто вызывает полный крэш системы. Перешел на Win7, стало намного лучше, 40к кеев проблем не вызывает, но сама проблема не решилась, просто масштабы немного изменились. Теперь характерная цифра сместилась ближе к цифре в 100к кеев. Например сейчас проект в 130к кеев не может работать дольше ~8 часов. Падает абсолютно стабильно и не всегда автосохранение помогает, видимо бъется файл и не всегда открывается.

MIND
На сайте с 08.03.2007
Offline
238
#138

Anton, о проблеме известно. В скором времени мы плотно займемся модернизацией внутренней структуры программы с целью повышения производительности и стабильности работы.

MyOST
На сайте с 22.01.2006
Offline
559
#139

Всем спасибо за письма с теми или иными комментариями, в которых масса полезных сведений.

Продолжаем работать над модернизацией, никаких "полумер", детальная проработка программы с целью улучшения!

A
На сайте с 29.12.2005
Offline
118
#140

Прошу объяснить как работать с Yandex.XML через прокси в несколько потоков.

А более конкретно вот это:

14.06.2011 18:09:12: начат парсинг позиций по Yandex

14.06.2011 18:09:12: в настоящий момент многопоточность съема позиций Yandex доступна только для прямого доступа. При использовании Yandex.XML используется 1 поток

Используется второй формат, тот который с #начинается.

И оно реально пилит в один поток. ~1 запрос в секунду. :(

Anton добавил 14.06.2011 в 18:34

А хоть и пилит в 1 поток, то долбит то только через одну проксю, что в списке под галкой "Использовать Yandex.XML" или же перебирает их по кругу?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий