1. А [SITEMAPSPLITER] вписан в шаблон?
2. Создался ли дополнительный sitemap.xml файл с индексами?
Как вариант вот программа фильтрации ключей: http://rghost.ru/7KpfnkV2R
Синтаксис : TextFilter.exe input.txt output.txt искать1,искать2
Код: http://pastebin.com/nijqn47w
Под базы пастухова подходит отлично, 50Гб шерстит за минут 30 на моем компе---------- Добавлено 18.09.2015 в 19:59 ----------Перезалил прогу и код с замером времени
Да, мне тут уже подсчитали выше что 3 с половиной года а не три.
Тогда такие варианты:
1. Юзать небанящие источники. (Может, Бинг?) Если конечно еще такие остались.
2. Делать на выделенном сервере АПИ с парсящим движком, к которому можно обращаться за контентом как к проксику. На этом сервере например может быть установлен А-Парсер, который нормально с парсингом справляется и с ним в комплетке проксей пачка.
3. Видит бог я пытался вам помочь с динамикой, но .. увы, так что последний вариант - юзать статику и все сгенерить заранее. Например ... чем бы сгенерить.. а, ну да, пандорой конечно.
Часть создаются вручную для разных целей и часть из .net аутоматычно.
В 2х словах: автоматически средствами .net фреймворка и ОС.
Средств управлять ими на низком уровне в .net нет и слава богу.
Все что делается из кода - это создание потоков и управление афинити маской.
Реализация фреймворка уже занимается распределением нагрузки от этих потоков на процы/ядра.
Так что хз. Если ты сильно по этой теме заморачиваешься, то тут нужен только c++ дорген, думаю с уровня c++ можно все что угодно провернуть.
Я выше написал откуда берется разброс, ты его сам в настройки профиля и шаблона вписал, не так ли?
Все макросы [*RAND*] - это и есть рандом в шаблонах. И значения x-y в профиле - это тоже рандом.
Плюс работа сборщика. Когда он периодически приходит подметать мусор то генерация замедляется - это норма (с) Малышева
Смотрим лог дальше:
15.09.2015 23:41:39 : Выполнено за 00:15:15.420 в 23:41:39
16.09.2015 0:12:36 : Выполнено за 00:14:43.447 в 0:12:36
16.09.2015 1:18:12 : Выполнено за 00:12:25.540 в 1:18:12
16.09.2015 3:56:25 : Выполнено за 00:11:38.085 в 3:56:25
...
16.09.2015 8:00:07 : Выполнено за 00:17:57.184 в 8:00:07 (38799) - последняя запись
Системного накопления времени генерации нет, так что не будь параноиком.
Нет, не видно. В конце также как и в середине и в начале. Нужно учесть 2 фактора: Рандомы в пандоре на каждой настройке; программа написана под .net, а котором огромное значение играет garbage collector, живущий и прибирающий мусор автоматически по своим таймингам и соображениям.
Насчет ядер ниче не могу сказать - у меня везде интел а амд от лукавого.
Когда снова появится такая ошибка, не закрывайте ее, проверьте через Unlocker какой другой процесс кроме пандоры обращается к этому файлу и почему.
Все реально. Фри ё майнд! Вот вы программисты странные люди..
Берешь базу ключей, делишь на 2 части. Первую генеришь локально на 100%, забиваешь в кеш. Запуливаешь на сервак.
Ну и вторую часть подгенеривает скрипт на серваке кроном. Снипеты или че еще пофиг, так как скорость парсинга управляется не ботами а железобетонной настройкой.
Значит можно избежать бананов и прочих радостей.
Обновил парсер текста.
Работает стабильней, не блочит окно пандоры.
Отзывчивость интерфейса увеличена.
Доработан код парсинга блоков текста на странице + код многопоточного движка.
Напоминаю что в предыдыдущий ап парсера была добавлена поддержка английского языка на парсинг.