Используйте свою собственную файловую БД, построенную с учетом практики ООП и TDD модулей экспорта в известные скрипты блогов - Doorways & Cloaking

Парсер статей.

Dank0 · 2008-08-03T09:55:11.0000000Z

Вопрос такой есть ли уже готовые продукты подобного рода, которые при подаче на вход скрипта html страницы на выходе дают статью находящуюся на ней, без мусора и всякого рода дребедени? Есть ли бесплатные вещи подобного рода или проще написать свой, если да может ктонибудь поделится алгоритмом??? 8)

540

humbert

3 августа 2008, 12:55

#11

Имхо, универсального нет, под каждый шаблон сайта надо писать свой модуль. Ибо простое выдирание тегов приводит к искажению структуры информации. Это если нужна структура. Если только текст, то там проще.

Парсинг прайс-листов, наполнение интернет-магазина товаром. (https://humbert.ru) Любая CMS (Битрикс, OpenCart, Prestashop и даже Woo Commerce )

Ш2

9

школьнег_29A

3 августа 2008, 12:55

#12

VipRaskrutka:
школьнег_29A, у меня самописный (не продаеццо).

у меня тож самописных 2шт правда заточенные под конкретные сайты, у вас универсальный?

FIDO FOREVER !

[Удален]

3 августа 2008, 13:02

#13

школьнег_29A:
у меня тож самописных 2шт правда заточенные под конкретные сайты, у вас универсальный?

Ага, универсальный, под конкретный сайт настраивается за пару минут... сам алгоритм является секретом. скажу только, что

а) авто определение кодировки(используется http meta, http header а также собственная библиотека распознование рус кодировок)

б) сделана мощная файловая структура, проект может хранить несколько миллионов статей

в) многопоточность

г) скорость работы в одном потоке до 1 страницы в секунду(с учётом загрузки, обработки и записи)

д) для парсинга текста используется гибко настраиваемый шаблон, в котором указывается, где находится текст и title.

е) фильтр url, в котором указывается на каких url можно парсить контент

ж) бот маскируется известными поисковиками

д) встроенный синонимайзер

и) построен с учётом практики ООП и TDD (для обеспечения стабильности)

к) модули экспорта в известные скрипты блогов

м) сейчас пишется графическая форма управления этим всем добром...

S

143

sapien

3 августа 2008, 13:13

#14

у меня тоже есть что-то подобное, только без потоков

но встроен синонимайзер

заточенное для генерации кучи сайтов

статьи, тайтлы и рандомные установки забиваются в базу движка который настроен на мультисайтинг

[Удален]

3 августа 2008, 13:22

#15

Ласто сплог делает кстати не мало - грабит новость, синонимизирует...

Ш2

9

школьнег_29A

3 августа 2008, 13:34

#16

VipRaskrutka:
Ага, универсальный, под конкретный сайт настраивается за пару минут... сам алгоритм является секретом. скажу только, что
а) авто определение кодировки(используется http meta, http header а также собственная библиотека распознование рус кодировок)
б) сделана мощная файловая структура, проект может хранить несколько миллионов статей
в) многопоточность
г) скорость работы в одном потоке до 1 страницы в секунду(с учётом загрузки, обработки и записи)
д) для парсинга текста используется гибко настраиваемый шаблон, в котором указывается, где находится текст и title.
е) фильтр url, в котором указывается на каких url можно парсить контент
ж) бот маскируется известными поисковиками
д) встроенный синонимайзер
и) построен с учётом практики ООП и TDD (для обеспечения стабильности)
к) модули экспорта в известные скрипты блогов
м) сейчас пишется графическая форма управления этим всем добром...

крут :) кста, статьи в БД хранишь? я пока спи.. ээ т.е спарсил около 1000 статей - mysql пока вывозит, если речь о миллионах идет придется чтото другое юзать?

синонимайзер свой или с синонимайзер.ру? я свой как то писал но не сподобился туда больше 100 слов набить 😎

D0

32

Dank0

3 августа 2008, 13:43

#17

речь идет об универсальном 8) а не о таком чтобы подгонять под каждый сайт

[Удален]

3 августа 2008, 16:41

#18

Dank0:
речь идет об универсальном 8) а не о таком чтобы подгонять под каждый сайт

Хе) времени на один сайт уходит в среднем 4 минуты, а улов около 1-5k статей, не думайте, что улов хороший? А универсальность нереальна, а существующие универсальные парсеры гребут говна лишнего (пример ластосплог). Лучше тратить 4 минуты на сайт, чем иметь куча напарсенного г****? А если напарсить говноконтента, так проги типа диско качалка, офлайн эксплоэр и т.п...

школьнег_29A:
крут :) кста, статьи в БД хранишь? я пока спи.. ээ т.е спарсил около 1000 статей - mysql пока вывозит, если речь о миллионах идет придется чтото другое юзать?
синонимайзер свой или с синонимайзер.ру? я свой как то писал но не сподобился туда больше 100 слов набить 😎

Mysql не использую, она показывает плохие результаты, особенно при фильтрации названий отпарсенных статей. Использую свою собственную файловую БД, построенную исключительно для этой задачи.

Синонимайзер - сейчас используем базу с синонимайзера

/ru/forum/210018 (лучше не встречал, не очень большая, но относительно качественная.)

68

firacet

3 августа 2008, 18:07

#19

VipRaskrutka:
Mysql не использую, она показывает плохие результаты, особенно при фильтрации названий отпарсенных статей.

Гм.. С каких пор мускул стал она? И вообще что за бред вы несете насчетплохих результатов работы мускула? Может вы дефолтный конфиг юзаете? Или на дешевом впсе с 256 метрами подняли свой мускул? Уверен что мускул работает на порядок быстрее и надежнее вашей самописаной БД. Так как над мускулом работает не один "гений самоучка" ;)

Еще могу посоветовать Вам почитать мануал мускула на тему ключиков ;) И тогда даже Ваши сверх сложные "фильтрации названий отпарсенных статей" будут фильтроваться очень хорошо ☝

Поищите в гугле

Tune mysql и тогда поймете как должен _нормально_ работать сервер баз данных.

p.s. Просто смешно читать такие посты - всемирно известный продукт который используют в своих проектах множество огромных компаний - уйня! Использую свой написанный на коленке ;)

Чао.

Сбылись мечты народный: Мир-Труд-Май

S

143

sapien

3 августа 2008, 18:16

#20

firacet

о всезнающий салобон, расскажите нам пожалуйста, как таки делать деньги?

Переиграть и победить: как анализировать конкурентов для продвижения сайта

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Парсер статей.