PandoraBox - новый дорген.

bell387
На сайте с 25.06.2008
Offline
132
#681
TopperHarley:
зависит, т.к. объем обрабатываемых данных увеличивается, нужно больше времени чтобы это переварить. ну и алгоритмы по разному съедают быстродействие. и настройки разные могут быть. например морфология. ну и еще стоит заглянуть в файл тюнинга, посмотреть на

я не трогал этот файл.

если нужно увеличить скорость то что сделать там нужно?

файловый трафик конверчу в 20-30 баксов\кило (http://bitcash.ru/user/registration.html?r=470) здесь конвертятся диеты (http://www.moneysyst.biz?rid=354) лучший декстопный дорген (/ru/forum/436133)
TopperHarley
На сайте с 24.03.2009
Offline
350
#682
bell387:
я не трогал этот файл.
если нужно увеличить скорость то что сделать там нужно?

поставить быстрый комп(процессор, память, винт)

ну или недокументированная функция pause= -100500

PandoraBox - генератор #1 ( https://pandoraboxx.ru ) :: ContentBox - Новый многопточный парсер текста,картинок,видео и т.д. ( https://pandoraboxx.ru/contentbox.php ) :: Конвертор шаблонов WP/DLE ( https://pandoraboxx.ru/templateconvertor.php )
maxwell
На сайте с 29.04.2009
Offline
149
#683

А как с вопросом использования больших баз и марковки? Надо как-то пофиксить баг (скрин я давал).

Solo_by
На сайте с 19.06.2009
Offline
220
#684
maxwell:
А как с вопросом использования больших баз и марковки?

При использовании огромных баз для генерации текста цепями маркова нужна совершенно другая система сбора статистики словосочетаний и её хранение. Т.е. не в виде "берём текст и строим дорный текст на основе него", а в виде постоянной подкормки базы вероятностей следования слов. Как бы это по-русски объяснить. Вообщем, эти вероятности должны быть заложены в базу один раз, а не каждый раз при генерации дора. Это единственный вариант реализации данного алгоритма.

Так что это вероятно не баг, а ограничение.

TopperHarley
На сайте с 24.03.2009
Offline
350
#685

совершенно верно, это не баг, а ограничение

spambot
На сайте с 12.12.2008
Offline
55
#686
TopperHarley:
совершенно верно, это не баг, а ограничение

и какой макс. размер текстовки можно еще подать на вход при маркове?

Every time you attempt to parse HTML with regular expressions, the unholy child weeps the blood of virgins, and Russian hackers pwn your webapp. (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)
TopperHarley
На сайте с 24.03.2009
Offline
350
#687
spambot:
и какой макс. размер текстовки можно еще подать на вход при маркове?

~40..50 метров, остальные алгоритмы жрут и по 200мб

TopperHarley
На сайте с 24.03.2009
Offline
350
#688

Написал менеджер загрузки

Программа работает в двух режимах

Заливка по ftp через socks5, для каждого нового дора берется новый socks5

Заливка архива с последующей распаковкой.

Попозже будет еще плюс один режим.

TopperHarley
На сайте с 24.03.2009
Offline
350
#689

обновил парсер картинок, теперь банановый! то есть размеры можно указывать.

bell387
На сайте с 25.06.2008
Offline
132
#690

Топер, добавь плз макрос, который будет брать первые предложения со страницы и подмешивать туда слова.

типа:

[PLTEXT-1-2-(1,1)] но текст не рандомный, а взятый с первого абзаца на пример.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий