TopperHarley

TopperHarley
Рейтинг
350
Регистрация
24.03.2009
h-i-t-m-a-n:
Не работает - пробовал сгенерить дор на 15к стр - в итоге генерит почему то около 1к стр и все.
Отложенка выкл.

1. А [SITEMAPSPLITER] вписан в шаблон?

2. Создался ли дополнительный sitemap.xml файл с индексами?

Как вариант вот программа фильтрации ключей: http://rghost.ru/7KpfnkV2R

Синтаксис : TextFilter.exe input.txt output.txt искать1,искать2

Код: http://pastebin.com/nijqn47w

Под базы пастухова подходит отлично, 50Гб шерстит за минут 30 на моем компе

---------- Добавлено 18.09.2015 в 19:59 ----------

Перезалил прогу и код с замером времени

OmgRes:
А с задержкой дор - так это на 3 года ))

Да, мне тут уже подсчитали выше что 3 с половиной года а не три.

Тогда такие варианты:

1. Юзать небанящие источники. (Может, Бинг?) Если конечно еще такие остались.

2. Делать на выделенном сервере АПИ с парсящим движком, к которому можно обращаться за контентом как к проксику. На этом сервере например может быть установлен А-Парсер, который нормально с парсингом справляется и с ним в комплетке проксей пачка.

3. Видит бог я пытался вам помочь с динамикой, но .. увы, так что последний вариант - юзать статику и все сгенерить заранее. Например ... чем бы сгенерить.. а, ну да, пандорой конечно.

Часть создаются вручную для разных целей и часть из .net аутоматычно.

_Snake_:
А по поводу распределения по ядрам, можешь в двух словах объяснить как происходит распределение?

В 2х словах: автоматически средствами .net фреймворка и ОС.

Средств управлять ими на низком уровне в .net нет и слава богу.

Все что делается из кода - это создание потоков и управление афинити маской.

Реализация фреймворка уже занимается распределением нагрузки от этих потоков на процы/ядра.

Так что хз. Если ты сильно по этой теме заморачиваешься, то тут нужен только c++ дорген, думаю с уровня c++ можно все что угодно провернуть.

_Snake_:
А 15.09.2015 21:37:09 и 15.09.2015 22:12:17 там уже 20 мин.

Разброс не хилый получается 12-20 мин на одинаковое кол-во ключей.

Я выше написал откуда берется разброс, ты его сам в настройки профиля и шаблона вписал, не так ли?

Все макросы [*RAND*] - это и есть рандом в шаблонах. И значения x-y в профиле - это тоже рандом.

Плюс работа сборщика. Когда он периодически приходит подметать мусор то генерация замедляется - это норма (с) Малышева

Смотрим лог дальше:

15.09.2015 23:41:39 : Выполнено за 00:15:15.420 в 23:41:39

16.09.2015 0:12:36 : Выполнено за 00:14:43.447 в 0:12:36

16.09.2015 1:18:12 : Выполнено за 00:12:25.540 в 1:18:12

16.09.2015 3:56:25 : Выполнено за 00:11:38.085 в 3:56:25

...

16.09.2015 8:00:07 : Выполнено за 00:17:57.184 в 8:00:07 (38799) - последняя запись

Системного накопления времени генерации нет, так что не будь параноиком.

_Snake_:
По логу видно, что в начале генерации пакетки, времени на один дор уходило меньше чем в под конец.

Нет, не видно. В конце также как и в середине и в начале. Нужно учесть 2 фактора: Рандомы в пандоре на каждой настройке; программа написана под .net, а котором огромное значение играет garbage collector, живущий и прибирающий мусор автоматически по своим таймингам и соображениям.

Насчет ядер ниче не могу сказать - у меня везде интел а амд от лукавого.

felix345:
Процесс не может получить доступ к файлу "C:\Pandora\door\bla bla bla\style.css", так как этот файл используется другим процессом.

Когда снова появится такая ошибка, не закрывайте ее, проверьте через Unlocker какой другой процесс кроме пандоры обращается к этому файлу и почему.

Стрихар:
Вот, уже ближе, только не пойму про 100% контента к кэш, если мы его сразу закэшируем, что потом будем догенерировать?

Ну и 100% нереально, потому что контент берется, допустим, из сниппетов.

Все реально. Фри ё майнд! Вот вы программисты странные люди..

Берешь базу ключей, делишь на 2 части. Первую генеришь локально на 100%, забиваешь в кеш. Запуливаешь на сервак.

Ну и вторую часть подгенеривает скрипт на серваке кроном. Снипеты или че еще пофиг, так как скорость парсинга управляется не ботами а железобетонной настройкой.

Значит можно избежать бананов и прочих радостей.

Обновил парсер текста.

Работает стабильней, не блочит окно пандоры.

Отзывчивость интерфейса увеличена.

Доработан код парсинга блоков текста на странице + код многопоточного движка.

Напоминаю что в предыдыдущий ап парсера была добавлена поддержка английского языка на парсинг.

Всего: 2916