Если нужна читабельность, то это не в дорвееводстве - Doorways & Cloaking

Dank0 · 2008-08-03T09:55:11.0000000Z

Вопрос такой есть ли уже готовые продукты подобного рода, которые при подаче на вход скрипта html страницы на выходе дают статью находящуюся на ней, без мусора и всякого рода дребедени? Есть ли бесплатные вещи подобного рода или проще написать свой, если да может ктонибудь поделится алгоритмом??? 8)

[Удален]

3 августа 2008, 18:18

#21

firacet, скрипт писался для себя, под собственные нужды, это пока не скрипт парсера как поисковая технология гугл или яндекс и потому учитывало интересы только 2 человек, а не миллионов...

А вообще мы от темы топика отдалились, не стоит уделять так много внимания моей персоне, подскажите лучше ТС чтонибудь ;)

Ш2

9

школьнег_29A

3 августа 2008, 18:27

#22

firacet:
Гм.. С каких пор мускул стал она? И вообще что за бред вы несете насчетплохих результатов работы мускула? Может вы дефолтный конфиг юзаете? Или на дешевом впсе с 256 метрами подняли свой мускул? Уверен что мускул работает на порядок быстрее и надежнее вашей самописаной БД. Так как над мускулом работает не один "гений самоучка" ;)

Еще могу посоветовать Вам почитать мануал мускула на тему ключиков ;) И тогда даже Ваши сверх сложные "фильтрации названий отпарсенных статей" будут фильтроваться очень хорошо ☝

Поищите в гугле
Tune mysql и тогда поймете как должен _нормально_ работать сервер баз данных.

p.s. Просто смешно читать такие посты - всемирно известный продукт который используют в своих проектах множество огромных компаний - уйня! Использую свой написанный на коленке ;)

Чао.

В том то и дело что самоучки, школьники и студенты ))

Почитайте:

http://alexf.name/2008-07-28/eshhyo-pro-mysql/

А действительно серьезные компании юзают Oracle ;) Вы может еще думаете в Яндексе мускуль стоит ? 😆

FIDO FOREVER !

68

firacet

3 августа 2008, 18:27

#23

sapien:
firacet
о всезнающий салобон, расскажите нам пожалуйста, как таки делать деньги?

Вы не правы, я совсем не всезнающий. Просто приходилось работать с базами данных довольно большого обьема под сильной нагрузкой ( писал софт под VoIP - софтсвич )

А по теме: Всегда писал парсер под каждый сайт, не знаю чего так - как-то все руки не доходили сделать универсальный парсер по шаблонам. Ленивый я ;) Кстати есть небольшая коллекция парсеров статеек - если они еще работают могу вам подкинуть.

П.С, Простите за агрессивный тон в предыдущем посте. Что-то на меня нашло - наверное последствия солн. затмения.

Сбылись мечты народный: Мир-Труд-Май

VZ

40

VadoZ

3 августа 2008, 18:43

#24

А чего тема в дорвееводстве-то?

Если ТС сплог хочет - то этого валом и читабильность там совершенно не обязательна.

Если нужна читабельность и красиво выдранные статьи , то это не в дорвееводство писать надо :). Тогда лучше почитать про регулярки.

S

56

solnikolay

3 августа 2008, 19:03

#25

VadoZ:
Если нужна читабельность и красиво выдранные статьи , то это не в дорвееводство писать надо :). Тогда лучше почитать про регулярки.

Какая разница регулярки/не регулярки? Можете хоть стандартными функциями обработки строк парсить. Главное алгоритм пока толковый не спалили. А по шаблонам - это не совсем авто:o Хотя функционал у парсера VipRaskrutka приятный :)

68

firacet

3 августа 2008, 19:08

#26

А я вместо регулярок часто explode'ом вырезаю нудный кусок

$t = explode('начало',$t);

$t = $t[1];

$t = explode('конец',$t);

$t = $t[0];

;)

S

143

sapien

3 августа 2008, 19:17

#27

я регулярками фигачу

30 сайтов генерится чуть более часа в каждом всего около 10 статей

главное чтоб пс их заглатывали и не давились :)

VZ

40

VadoZ

3 августа 2008, 19:58

#28

solnikolay:
Какая разница регулярки/не регулярки? Можете хоть стандартными функциями обработки строк парсить. Главное алгоритм пока толковый не спалили. А по шаблонам - это не совсем авто:o Хотя функционал у парсера VipRaskrutka приятный :)

Разница есть. Особенно когда есть гора неуникальных элементов и будет гора уникальных, значение которых мы предсказать не можем.

Впрочем мой пост сводился больше к тому, что если нужен чистенький текст - то нужно затачивать под конкретный сайт/сайты - не будут универсальные решения красиво работать.

По поводу алгоритма толкового под универсальный парсер - я уверен что даже если его спалят, то ТС просто не сможет его реализовать.

Яндекс кобласит Джон Мюллер: не зацикливайтесь Cloudflare стал выдавать сайту

324

response

3 августа 2008, 20:01

#29

универсальный парсер с текстовым конфигом написать не сложно. вот облечь это все в грамотный, удобный и эффективный гуй - вот это реально гемор. Но если вы сделаете подобную вещь, очень немногие решат выложить тулзу в паблик, пусть и за деньги.

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)

Яндекс кобласит Ходят слухи, что деньги Можно ли заменить ISP

LL

39

la-la-la

3 августа 2008, 21:45

#30

универсальный парсер статей

если задача - собрать статьи, чтобы использовать их именно как статьи, а не набивка для доров, то полный автомат никак невозможен... лучше потратить минуту на составление регэкспа и в результате иметь базу статей, чем собрать кучу говна на автопилоте, тем более поиск источников статей на автомат тоже особо не поставишь

Что делать, чтобы попасть в ответы Google Bard

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Парсер статей.