Оцените пожалуйста парсер страницы.

1 23
Добрый дорвейщик
На сайте с 11.12.2007
Offline
83
#21
response:
я не верю в приемлимые результаты от универсального парсера.

... может планка приемлимости слишком высока ? 🙄

response:

проще сделать распарсивалку под каждый конкретный ресурс. для адалта парсил, среди прочих, стульчик.нет, для авто - каталог авто.ру. Весьма неплохо.

Ну то, что проще делать парсер не универсальный, а специализированный, это понятно... А вот:

response:

Маловато, конечно, но и не 10 часов потребовалось (не считая парсера, который при наличии наработок делается за сравнительно небольшое время).

Я же написал... Не маловато, а совсем мало :(. Мне нужны промышленные объемы текстов, ну такая схема работы у меня 🙄.

response:

а то что тс предлагает, оно как бы не работает, не то чтобы могло насканить гиг безмусорных текстов за 10 часов.

Оно работает недостаточно качественно, это да. Чтобы текст был "безмусорным" для меня, достаточно, чтобы он состоял из предложений не длиннее Х символов, начинался с большой буквы и заканчивался ...|.|!|?|!?. Вот такие скромные запросы :).

response
На сайте с 01.12.2004
Offline
324
#22
Добрый дорвейщик:

Оно работает недостаточно качественно, это да. Чтобы текст был "безмусорным" для меня, достаточно, чтобы он состоял из предложений не длиннее Х символов, начинался с большой буквы и заканчивался ...|.|!|?|!?. Вот такие скромные запросы :).

у меня примерно такие же. я тут давно выкладывал нечто подобное.. там прога по ключевику лезла в серп яши, брала оттуда урлы топа, и выдирала с морд этого топа все "хорошие" предложения (вот примерно такие же, как ты описал).

В принципе у меня есть несколько гигов насканенных рунетовских текстов (просто бот ходил по сайтам и сохранял html морд). Можно оттуда попробовать выдрать весь текст.

Сам бот еще есть, его можно запустить. просто раньше у него ограничения были в виде того, что не парсить жжшки, еще что-то там, ну в общем через какое-то количество сайтов (а скачивались и парсились только морды, соот. и линки на новые сайты искались только с морд), он типа как обошел все, весь набор взаимоперелинкованных сайтов, в который входил первоначальный (стартовый) набор урлов.

response добавил 15.03.2008 в 19:26

посмотрел, там в общем три гига всего. не знаю, сколько оттуда выйдет хороших предложений.

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
Добрый дорвейщик
На сайте с 11.12.2007
Offline
83
#23
response:

посмотрел, там в общем три гига всего. не знаю, сколько оттуда выйдет хороших предложений.

Три гига немного, но уже что-то. А варианты продажи бота не расматриваешь?

response
На сайте с 01.12.2004
Offline
324
#24
Добрый дорвейщик:
Три гига немного, но уже что-то. А варианты продажи бота не расматриваешь?

слушай, он не очень готов для паблика чисто с точки зрению юзабилити - там все настройки в коде, обязательна mysql через dsn (с файлами не работает) и пр. И самое главное - он кравлит линки только с морд. Весь сайт не шерстит.

Так что доделок там надо сделать порядочно перед тем, как за него деньги просить.

В текущем виде могу отдать за так, в принципе, сконфигурив при компиляции.

зы

"с файлами не работает" - в смысле что инфу об урлах он пихает тока в базу. Кэш самих страниц, конечно, в файлах на диске.

eN_Slon
На сайте с 13.02.2007
Offline
159
#25
response:
ну так себе:
ждем появления ен_слона, который скажет, что у него целая команда разработчиков и ноу-хау механизм для создания роботов, и он сейчас все разрулит, если вы согласитесь работать с ним в доле 😂

Та-да!!! А вот и я. Долю никому не предлагаю, но механизм действительно есть. ТС правильно подметил, что сложность заключается не в кроулинге или парсинге, а именно в алгоритме определения статьи, или иными словами большого блока текста на странице.

ТС. поясни как работает твой алгоритм?

eN_Slon добавил 19.03.2008 в 19:08

А насчет текста - все щее доступен мой сервис - 87.252.228.252/.

не сочтите за рекламу, я с него не зарабатываю

Парсинг, граббинг, автоматизация всего что вы можете сделать в браузере(и не только) сами. Любое кол-во, любые защиты.
1 23

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий