Оцените пожалуйста парсер страницы.

123
Добрый дорвейщик
На сайте с 11.12.2007
Offline
83
#11
ЧерныйKот:
Если на основе этого алгоритма софт будет востребован, то естественно все будет работать автоматом.

Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)

ciber
На сайте с 04.01.2008
Offline
215
#12
Добрый дорвейщик:
Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)

Библиотека юного техника, подшивка журналофф за 10 лет и файнридер со сканером с листовой подачей. Был у меня такой в распоряжении на одном из предыдущих мест работы. Если не ошибаюсь кодак. 30 листочкоф в минуту.

Добрый дорвейщик
На сайте с 11.12.2007
Offline
83
#13
ciber:
Если не ошибаюсь кодак. 30 листочкоф в минуту.

Ну тогда мне надо будет сканить 50 000 стриничек в час (а в вашем методе тоьлко 1800 получается) :))) Не когда будет доры то делать! :)))

G13b
На сайте с 29.02.2008
Offline
3
#14
ЧерныйKот:
[...]парсер[...]

ничего не заметил, тестил в двух броузерах Opera 9.25 и IE 6.0... работает!.. :)

• С Уважением, Глеб
response
На сайте с 01.12.2004
Offline
324
#15
Добрый дорвейщик:
Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)

я не верю в приемлимые результаты от универсального парсера. проще сделать распарсивалку под каждый конкретный ресурс. для адалта парсил, среди прочих, стульчик.нет, для авто - каталог авто.ру. Весьма неплохо. Маловато, конечно, но и не 10 часов потребовалось (не считая парсера, который при наличии наработок делается за сравнительно небольшое время).

а то что тс предлагает, оно как бы не работает, не то чтобы могло насканить гиг безмусорных текстов за 10 часов.

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
[Удален]
#16
response:
я не верю в приемлимые результаты от универсального парсера. проще сделать распарсивалку под каждый конкретный ресурс.

Зависит от ситуации. С помощью этого алгоритма я парсанул 10 строительных сайтов, из них 1 неправильно парсился. В среднем получил 8000 статей. Потратил 20 минут.

Но в конечный продукт могу сделать две функции парсинг автоматом и по шаблону (особенно если необходимы только картинки или файлы какие либо).

Вы говорите что данные продукт нафиг ненужен?

kaft
На сайте с 21.08.2007
Offline
6
#17
ЧерныйKот:
Но в конечный продукт могу сделать две функции парсинг автоматом и по шаблону (особенно если необходимы только картинки или файлы какие либо).

Вы говорите что данные продукт нафиг ненужен?

Потестил на нескольких проектах. Тексты собирает отлично.

Продукт однозначно полезный 🚬

ciber
На сайте с 04.01.2008
Offline
215
#18
Добрый дорвейщик:
Ну тогда мне надо будет сканить 50 000 стриничек в час (а в вашем методе тоьлко 1800 получается) :))) Не когда будет доры то делать! :)))

Там полный автомат. загружаешь и уходишь спать. ) Думаю, что с тех пор (примерно 5 лет) уже есть более производительные сканерочки

Кстати, чето у тебя с математикой не лады. Средняя страница журнала это 35-40 кб текста

response
На сайте с 01.12.2004
Offline
324
#19
ЧерныйKот:
Вы говорите что данные продукт нафиг ненужен?

я говорю только то, что лично я его не куплю, не более.

N
На сайте с 24.03.2007
Offline
53
#20

чё от подобное писал, да не дописал. http://seshop.ru/parser/ открываеться пустая страница

Покупаешь сайты? Боишься пропустить вкусное предложение? flipp.ru поможет. (http://flipp.ru/)
123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий