Парсер статей.

humbert
На сайте с 16.03.2006
Offline
540
#11

Имхо, универсального нет, под каждый шаблон сайта надо писать свой модуль. Ибо простое выдирание тегов приводит к искажению структуры информации. Это если нужна структура. Если только текст, то там проще.

Парсинг прайс-листов, наполнение интернет-магазина товаром. (https://humbert.ru) Любая CMS (Битрикс, OpenCart, Prestashop и даже Woo Commerce )
Ш2
На сайте с 24.07.2008
Offline
9
#12
VipRaskrutka:
школьнег_29A, у меня самописный (не продаеццо).

у меня тож самописных 2шт правда заточенные под конкретные сайты, у вас универсальный?

FIDO FOREVER !
[Удален]
#13
школьнег_29A:
у меня тож самописных 2шт правда заточенные под конкретные сайты, у вас универсальный?

Ага, универсальный, под конкретный сайт настраивается за пару минут... сам алгоритм является секретом. скажу только, что

а) авто определение кодировки(используется http meta, http header а также собственная библиотека распознование рус кодировок)

б) сделана мощная файловая структура, проект может хранить несколько миллионов статей

в) многопоточность

г) скорость работы в одном потоке до 1 страницы в секунду(с учётом загрузки, обработки и записи)

д) для парсинга текста используется гибко настраиваемый шаблон, в котором указывается, где находится текст и title.

е) фильтр url, в котором указывается на каких url можно парсить контент

ж) бот маскируется известными поисковиками

д) встроенный синонимайзер

и) построен с учётом практики ООП и TDD (для обеспечения стабильности)

к) модули экспорта в известные скрипты блогов

м) сейчас пишется графическая форма управления этим всем добром...

S
На сайте с 25.11.2007
Offline
143
#14

у меня тоже есть что-то подобное, только без потоков

но встроен синонимайзер

заточенное для генерации кучи сайтов

статьи, тайтлы и рандомные установки забиваются в базу движка который настроен на мультисайтинг

[Удален]
#15

Ласто сплог делает кстати не мало - грабит новость, синонимизирует...

Ш2
На сайте с 24.07.2008
Offline
9
#16
VipRaskrutka:
Ага, универсальный, под конкретный сайт настраивается за пару минут... сам алгоритм является секретом. скажу только, что
а) авто определение кодировки(используется http meta, http header а также собственная библиотека распознование рус кодировок)
б) сделана мощная файловая структура, проект может хранить несколько миллионов статей
в) многопоточность
г) скорость работы в одном потоке до 1 страницы в секунду(с учётом загрузки, обработки и записи)
д) для парсинга текста используется гибко настраиваемый шаблон, в котором указывается, где находится текст и title.
е) фильтр url, в котором указывается на каких url можно парсить контент
ж) бот маскируется известными поисковиками
д) встроенный синонимайзер
и) построен с учётом практики ООП и TDD (для обеспечения стабильности)
к) модули экспорта в известные скрипты блогов
м) сейчас пишется графическая форма управления этим всем добром...

крут :) кста, статьи в БД хранишь? я пока спи.. ээ т.е спарсил около 1000 статей - mysql пока вывозит, если речь о миллионах идет придется чтото другое юзать?

синонимайзер свой или с синонимайзер.ру? я свой как то писал но не сподобился туда больше 100 слов набить 😎

D0
На сайте с 06.01.2008
Offline
32
#17

речь идет об универсальном 8) а не о таком чтобы подгонять под каждый сайт

[Удален]
#18
Dank0:
речь идет об универсальном 8) а не о таком чтобы подгонять под каждый сайт

Хе) времени на один сайт уходит в среднем 4 минуты, а улов около 1-5k статей, не думайте, что улов хороший? А универсальность нереальна, а существующие универсальные парсеры гребут говна лишнего (пример ластосплог). Лучше тратить 4 минуты на сайт, чем иметь куча напарсенного г****? А если напарсить говноконтента, так проги типа диско качалка, офлайн эксплоэр и т.п...

школьнег_29A:
крут :) кста, статьи в БД хранишь? я пока спи.. ээ т.е спарсил около 1000 статей - mysql пока вывозит, если речь о миллионах идет придется чтото другое юзать?
синонимайзер свой или с синонимайзер.ру? я свой как то писал но не сподобился туда больше 100 слов набить 😎

Mysql не использую, она показывает плохие результаты, особенно при фильтрации названий отпарсенных статей. Использую свою собственную файловую БД, построенную исключительно для этой задачи.

Синонимайзер - сейчас используем базу с синонимайзера

/ru/forum/210018 (лучше не встречал, не очень большая, но относительно качественная.)

firacet
На сайте с 23.07.2008
Offline
68
#19
VipRaskrutka:
Mysql не использую, она показывает плохие результаты, особенно при фильтрации названий отпарсенных статей.

Гм.. С каких пор мускул стал она? И вообще что за бред вы несете насчетплохих результатов работы мускула? Может вы дефолтный конфиг юзаете? Или на дешевом впсе с 256 метрами подняли свой мускул? Уверен что мускул работает на порядок быстрее и надежнее вашей самописаной БД. Так как над мускулом работает не один "гений самоучка" ;)

Еще могу посоветовать Вам почитать мануал мускула на тему ключиков ;) И тогда даже Ваши сверх сложные "фильтрации названий отпарсенных статей" будут фильтроваться очень хорошо ☝

Поищите в гугле

Tune mysql и тогда поймете как должен _нормально_ работать сервер баз данных.

p.s. Просто смешно читать такие посты - всемирно известный продукт который используют в своих проектах множество огромных компаний - уйня! Использую свой написанный на коленке ;)

Чао.

Сбылись мечты народный: Мир-Труд-Май
S
На сайте с 25.11.2007
Offline
143
#20

firacet

о всезнающий салобон, расскажите нам пожалуйста, как таки делать деньги?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий