Оцените пожалуйста парсер страницы.

ЧерныйKот · 2008-03-14T06:08:58.0000000Z

Скрипт распознает статью на странице. Урл - ссылка на страницу со статьей: Ссылка: http://seshop.ru/parser/ Может быть у кого есть мысли как это можно получше заюзать? Просьба оценить сам алгоритм. Если возникают баги при парсинге текст урл плиз в личку. Если возникнут желающие, то на основе этого алгоритма можно сделать полноценный парсер с подгрузкой всех страниц домена и т.д.

83

Добрый дорвейщик

15 марта 2008, 08:13

#21

response:
я не верю в приемлимые результаты от универсального парсера.

... может планка приемлимости слишком высока ? 🙄

response:

проще сделать распарсивалку под каждый конкретный ресурс. для адалта парсил, среди прочих, стульчик.нет, для авто - каталог авто.ру. Весьма неплохо.

Ну то, что проще делать парсер не универсальный, а специализированный, это понятно... А вот:

response:

Маловато, конечно, но и не 10 часов потребовалось (не считая парсера, который при наличии наработок делается за сравнительно небольшое время).

Я же написал... Не маловато, а совсем мало :(. Мне нужны промышленные объемы текстов, ну такая схема работы у меня 🙄.

response:

а то что тс предлагает, оно как бы не работает, не то чтобы могло насканить гиг безмусорных текстов за 10 часов.

Оно работает недостаточно качественно, это да. Чтобы текст был "безмусорным" для меня, достаточно, чтобы он состоял из предложений не длиннее Х символов, начинался с большой буквы и заканчивался ...|.|!|?|!?. Вот такие скромные запросы :).

324

response

15 марта 2008, 16:11

#22

Добрый дорвейщик:

Оно работает недостаточно качественно, это да. Чтобы текст был "безмусорным" для меня, достаточно, чтобы он состоял из предложений не длиннее Х символов, начинался с большой буквы и заканчивался ...|.|!|?|!?. Вот такие скромные запросы :).

у меня примерно такие же. я тут давно выкладывал нечто подобное.. там прога по ключевику лезла в серп яши, брала оттуда урлы топа, и выдирала с морд этого топа все "хорошие" предложения (вот примерно такие же, как ты описал).

В принципе у меня есть несколько гигов насканенных рунетовских текстов (просто бот ходил по сайтам и сохранял html морд). Можно оттуда попробовать выдрать весь текст.

Сам бот еще есть, его можно запустить. просто раньше у него ограничения были в виде того, что не парсить жжшки, еще что-то там, ну в общем через какое-то количество сайтов (а скачивались и парсились только морды, соот. и линки на новые сайты искались только с морд), он типа как обошел все, весь набор взаимоперелинкованных сайтов, в который входил первоначальный (стартовый) набор урлов.

response добавил 15.03.2008 в 19:26

посмотрел, там в общем три гига всего. не знаю, сколько оттуда выйдет хороших предложений.

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)

83

Добрый дорвейщик

19 марта 2008, 09:44

#23

response:

посмотрел, там в общем три гига всего. не знаю, сколько оттуда выйдет хороших предложений.

Три гига немного, но уже что-то. А варианты продажи бота не расматриваешь?

324

response

19 марта 2008, 15:56

#24

Добрый дорвейщик:
Три гига немного, но уже что-то. А варианты продажи бота не расматриваешь?

слушай, он не очень готов для паблика чисто с точки зрению юзабилити - там все настройки в коде, обязательна mysql через dsn (с файлами не работает) и пр. И самое главное - он кравлит линки только с морд. Весь сайт не шерстит.

Так что доделок там надо сделать порядочно перед тем, как за него деньги просить.

В текущем виде могу отдать за так, в принципе, сконфигурив при компиляции.

зы

"с файлами не работает" - в смысле что инфу об урлах он пихает тока в базу. Кэш самих страниц, конечно, в файлах на диске.

159

eN_Slon

19 марта 2008, 16:07

#25

response:
ну так себе:
ждем появления ен_слона, который скажет, что у него целая команда разработчиков и ноу-хау механизм для создания роботов, и он сейчас все разрулит, если вы согласитесь работать с ним в доле 😂

Та-да!!! А вот и я. Долю никому не предлагаю, но механизм действительно есть. ТС правильно подметил, что сложность заключается не в кроулинге или парсинге, а именно в алгоритме определения статьи, или иными словами большого блока текста на странице.

ТС. поясни как работает твой алгоритм?

eN_Slon добавил 19.03.2008 в 19:08

А насчет текста - все щее доступен мой сервис - 87.252.228.252/.

не сочтите за рекламу, я с него не зарабатываю

Парсинг, граббинг, автоматизация всего что вы можете сделать в браузере(и не только) сами. Любое кол-во, любые защиты.

Google: E-E-A-T не является фактором ранжирования

Все что нужно знать о DDоS-атаках грамотному менеджеру