Вот скринчик сообщения, на которое патч fix-1 заменяет обсуждавшееся выше. Левая кнопочка покажет отчет, о котором идет речь.
На самом деле мне за вчера накидали достаточно, как я полагаю, отчетов, так что сегодня собрал новый патчик: 2-2-2-fix-2.
Прямая ссылка для редакции LITE: http://magadanparser.ru/download/fixes/magadan-lite-2-2-2-fix-2.zip
Прямая ссылка для редакции PRO: http://magadanparser.ru/download/fixes/magadan-pro-2-2-2-fix-2.zip
Если не поможет - пишите лучше сразу на support@magadanparser.ru, так оперативнее будет. В целом, яша буксует который день, и вся суть проблемы была в том, что не каждый его ответ о собственной нетрудоспособности был корректно отлавливаем Магаданом. Это и приводило к выводу сообщения об ошибке классификатора.
Гм. Уверен, что была ссылка 😒
Вот: http://magadanparser.ru/download/fixes/
В мануале актуальная ссылка есть и немного инфы по патчам: http://manual.magadanparser.ru/Патч---------- Добавлено 25.03.2013 в 21:58 ----------
Прозрачная - это "что-то есть, чего-то нет".
Приветствую.
Вот здесь можно скачать патчик 2-2-2-fix-1 для используемой редакции программы. В следующий раз, когда появится указанное сообщение, согласитесь на отображение отчета. Содержимое отчета отправьте на support@magadanparser.ru, тогда можно будет определить, в чем именно проблема.
Блин, только сейчас заметил, что куда-то протерялась основная часть поста с развернутым ответом. У серча тогда database error был пол дня, что-то отвалилось.
В общем, суть в том, что фильтр фильтрует только слова, поступающие в список, к которому этот фильтр привязан. Слова, поступающие в базу в процессе парсинга, не фильтруются в принципе.
Логика такова: слова, на нахождение которых уже были потрачены ресурсы (время и пр.), не имеет смысла выкидывать, лучше сохранить их в базу из расчета "вдруг понадобятся" (на сохранение идет копеечный ресурс). Фильтровать по-хорошему надо именно выборки, работая с базой, как с кешем слов, характеризующимся полезной избыточностью.
Вопрос затрачиваемых ресурсов отрегулирован довольно четко: мы не тратим лишнего времени на сбор ненужной информации, фильтруя очередь на парсинг (т.е. задавая направление парсинга), но раз уж какой-то ключевик попал в очередь, значит все найденные для него связи должны быть сохранены в базу. С другой стороны, количество просматриваемых связей (т.е. количество пролистанных страниц выдачи поисковой системы), так же как и содержимое очереди прямым образом влияющее на затраченное на парсинг время, тоже можно ограничить в интерфейсе программы. В результате мы обладаем полным контролем над ценным ресурсом "количество запросов к сервису поисковой системы", но при этом не занижаем вручную КПД процесса.
ну вот и все.
вот вам задачка, дорвейщики "с большим опытом скриптов на пэхопэ и джейкуэрри".
есть такая полная по Тьюрингу архитектура комманд, называется bbj (bit-bit-jump). на просторах инета легко гуглится ее описание и готовый ассемблер.
кто напишет на пэхопэ или на js интерпритатор кода на bbj, и сам код, выводящий в стдаут "Serch dlya dorveischikov!", получит грант в 20 баксов на развитие бизнеса и немерянно респекта от говнокодеров всея Руси.
на самом деле прикольная темка. эта виртуальная машина поможет вам творить крутые декодеры вашего js-а, которые никому нафиг не нужны, но которыми все так любят пользоваться.
филиал вебмаскона.
Я правильно понял, что фильтр (вот этот http://manual.magadanparser.ru/Фильтр_списка_ключевых_слов) установлен на очередь, а кеи "попадаются в базе"? Фильтр фильтрует только тот список слов, на который он установлен. Списком может быть очередь, выборка из базы в браузере, или любой другой. Но слова, собранные в процессе парсинга, всегда попадают в базу, потому что не фильтруются в принципе (поставив фильтр на очередь, мы фильтруем очередь, те слова, что попадают именно в нее, а не сохраняемые в базу слова).
Возможно, в слудующих версиях появится именно фильт сохраняемых в базу кеев, но в целом это неверно идеологически, и я тут эту точку зрения в процессе разработки давно отстаиваю.
Имхо, если пользователь потратил время и ресурсы на сбор слова, он не должен его просто так выкидывать (т.е. отказываться от сохранения слова в базе). Пользователь может регулировать, направлять процесс сбора, фильтруя очередь, чтобы парсинг не уходил в ненужном направлении, а все, что за время работы было найдено, должно быть сохранено в базе. В какой-то степени это черновой сбор. Когда база готова (с излишками), всегда можно отфильтровать левые ключевики при выборке, используя фильтр браузера баз (http://manual.magadanparser.ru/Браузер_баз_ключевых_слов#.D0.91.D0.BB.D0.BE.D0.BA_.C2.AB.D0.A4.D0.B8.D0.BB.D1.8C.D1.82.D1.80_.D1.81.D0.BB.D0.BE.D0.B2.D0.B0.D0.BC.D0.B8.C2.BB), и на этом этапе можно эксперементировать с фильтрами по полной, при этом точно зная, что ничего не будет пропущено, так как в базе есть все, до чего в процессе парсинга добрался Магадан. Возможно, у пользователя во время работы с готовой базой появится интерес к соседним словам, которые первоначально он хотел бы зафильтровать - что, заново собирать? К тому же, не факт, что пользователь эти слова в принципе заметит. А так они всегда есть в базе, это как огромный кеш, содержащий, возможно, чуть больше информации, чем пользователь хотел изначально, но этот излишек не стоил пользователю дополнительного времени, так как эти слова так или иначе были бы обработаны программой. Короче, как сказал бы мой учитель информатики, это полезная избыточность.
Состояние очереди сохраняется, поэтому парсинг начнется с того слова, на котором процесс был остановлен. Если "вторая галочка" - это "Еще не распарсенные кейворды", то в очередь будут попадать только те ключевики, для которых не были собраны связи, т.е. при автопополнении очереди тоже повторов не будет. В общем, если работа программы была экстренно прервана, потеряна может быть только инфа для текущего слова, но после повторного запуска процесса сбор начнется с того же кея.
теоретически - нет. зависит от конкретных слов. если в какой-то момент дерево вордстата не даст новых кеев в базу (только уже собранные ранее дубли), процесс будет остановлен.
А, я думал это спам.
Спасибо, я старался. В любом случае, я бы советовал не сильно обращать внимания на декларируемые системные требования любого софта, так как минимальные требования, необходимые для запуска, всегда будут отличаться от требований, необходимых для комфортной работы (хотя бы потому, что уровень комфорта - ощущение объективное и зависит от задач и объемов работы конкретного пользователя).
Окошко выкидывается не через какое-то время, а в ответ на некоторые действия пользователя.
Задержка устанавливается в 2700 сек., если быть точным. Причина описана здесь: http://manual.magadanparser.ru/Почему_устанавливается_задержка_парсинга_в_2700_секунд%3F
Там же указано, как сделать, чтобы этого не происходило.