Мне нужны скрипты получения сравнительно больших безмусорных текстов за 10 часов - Doorways & Cloaking

Оцените пожалуйста парсер страницы.

ЧерныйKот · 2026-07-01T11:07:31.0000000Z

Скрипт распознает статью на странице. Урл - ссылка на страницу со статьей: Ссылка: http://seshop.ru/parser/ Может быть у кого есть мысли как это можно получше заюзать? Просьба оценить сам алгоритм. Если возникают баги при парсинге текст урл плиз в личку. Если возникнут желающие, то на основе этого алгоритма можно сделать полноценный парсер с подгрузкой всех страниц домена и т.д.

83

Добрый дорвейщик

14 марта 2008, 09:45

#11

ЧерныйKот:
Если на основе этого алгоритма софт будет востребован, то естественно все будет работать автоматом.

Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)

215

ciber

14 марта 2008, 14:32

#12

Добрый дорвейщик:
Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)

Библиотека юного техника, подшивка журналофф за 10 лет и файнридер со сканером с листовой подачей. Был у меня такой в распоряжении на одном из предыдущих мест работы. Если не ошибаюсь кодак. 30 листочкоф в минуту.

83

Добрый дорвейщик

14 марта 2008, 17:16

#13

ciber:
Если не ошибаюсь кодак. 30 листочкоф в минуту.

Ну тогда мне надо будет сканить 50 000 стриничек в час (а в вашем методе тоьлко 1800 получается) :))) Не когда будет доры то делать! :)))

3

G13b

14 марта 2008, 17:22

#14

ЧерныйKот:
[...]парсер[...]

ничего не заметил, тестил в двух броузерах Opera 9.25 и IE 6.0... работает!.. :)

• С Уважением, Глеб

324

response

14 марта 2008, 17:31

#15

Добрый дорвейщик:
Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)

я не верю в приемлимые результаты от универсального парсера. проще сделать распарсивалку под каждый конкретный ресурс. для адалта парсил, среди прочих, стульчик.нет, для авто - каталог авто.ру. Весьма неплохо. Маловато, конечно, но и не 10 часов потребовалось (не считая парсера, который при наличии наработок делается за сравнительно небольшое время).

а то что тс предлагает, оно как бы не работает, не то чтобы могло насканить гиг безмусорных текстов за 10 часов.

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)

[Удален]

14 марта 2008, 17:43

#16

response:
я не верю в приемлимые результаты от универсального парсера. проще сделать распарсивалку под каждый конкретный ресурс.

Зависит от ситуации. С помощью этого алгоритма я парсанул 10 строительных сайтов, из них 1 неправильно парсился. В среднем получил 8000 статей. Потратил 20 минут.

Но в конечный продукт могу сделать две функции парсинг автоматом и по шаблону (особенно если необходимы только картинки или файлы какие либо).

Вы говорите что данные продукт нафиг ненужен?

6

kaft

14 марта 2008, 18:02

#17

ЧерныйKот:
Но в конечный продукт могу сделать две функции парсинг автоматом и по шаблону (особенно если необходимы только картинки или файлы какие либо).

Вы говорите что данные продукт нафиг ненужен?

Потестил на нескольких проектах. Тексты собирает отлично.

Продукт однозначно полезный 🚬

215

ciber

14 марта 2008, 18:32

#18

Добрый дорвейщик:
Ну тогда мне надо будет сканить 50 000 стриничек в час (а в вашем методе тоьлко 1800 получается) :))) Не когда будет доры то делать! :)))

Там полный автомат. загружаешь и уходишь спать. ) Думаю, что с тех пор (примерно 5 лет) уже есть более производительные сканерочки

Кстати, чето у тебя с математикой не лады. Средняя страница журнала это 35-40 кб текста

324

response

14 марта 2008, 21:05

#19

ЧерныйKот:
Вы говорите что данные продукт нафиг ненужен?

я говорю только то, что лично я его не куплю, не более.

N

53

Noxon

15 марта 2008, 07:27

#20

чё от подобное писал, да не дописал. http://seshop.ru/parser/ открываеться пустая страница

Покупаешь сайты? Боишься пропустить вкусное предложение? flipp.ru поможет. (http://flipp.ru/)

Переиграть и победить: как анализировать конкурентов для продвижения сайта

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Оцените пожалуйста парсер страницы.