Парсер статей.

1 234 5
[Удален]
#21

firacet, скрипт писался для себя, под собственные нужды, это пока не скрипт парсера как поисковая технология гугл или яндекс и потому учитывало интересы только 2 человек, а не миллионов...

А вообще мы от темы топика отдалились, не стоит уделять так много внимания моей персоне, подскажите лучше ТС чтонибудь ;)

Ш2
На сайте с 24.07.2008
Offline
9
#22
firacet:
Гм.. С каких пор мускул стал она? И вообще что за бред вы несете насчетплохих результатов работы мускула? Может вы дефолтный конфиг юзаете? Или на дешевом впсе с 256 метрами подняли свой мускул? Уверен что мускул работает на порядок быстрее и надежнее вашей самописаной БД. Так как над мускулом работает не один "гений самоучка" ;)

Еще могу посоветовать Вам почитать мануал мускула на тему ключиков ;) И тогда даже Ваши сверх сложные "фильтрации названий отпарсенных статей" будут фильтроваться очень хорошо ☝

Поищите в гугле
Tune mysql и тогда поймете как должен _нормально_ работать сервер баз данных.

p.s. Просто смешно читать такие посты - всемирно известный продукт который используют в своих проектах множество огромных компаний - уйня! Использую свой написанный на коленке ;)

Чао.

В том то и дело что самоучки, школьники и студенты ))

Почитайте:

http://alexf.name/2008-07-28/eshhyo-pro-mysql/

А действительно серьезные компании юзают Oracle ;) Вы может еще думаете в Яндексе мускуль стоит ? 😆

FIDO FOREVER !
firacet
На сайте с 23.07.2008
Offline
68
#23
sapien:
firacet
о всезнающий салобон, расскажите нам пожалуйста, как таки делать деньги?

Вы не правы, я совсем не всезнающий. Просто приходилось работать с базами данных довольно большого обьема под сильной нагрузкой ( писал софт под VoIP - софтсвич )

А по теме: Всегда писал парсер под каждый сайт, не знаю чего так - как-то все руки не доходили сделать универсальный парсер по шаблонам. Ленивый я ;) Кстати есть небольшая коллекция парсеров статеек - если они еще работают могу вам подкинуть.

П.С, Простите за агрессивный тон в предыдущем посте. Что-то на меня нашло - наверное последствия солн. затмения.

Сбылись мечты народный: Мир-Труд-Май
VZ
На сайте с 16.09.2007
Offline
40
#24

А чего тема в дорвееводстве-то?

Если ТС сплог хочет - то этого валом и читабильность там совершенно не обязательна.

Если нужна читабельность и красиво выдранные статьи , то это не в дорвееводство писать надо :). Тогда лучше почитать про регулярки.

S
На сайте с 13.07.2007
Offline
56
#25
VadoZ:
Если нужна читабельность и красиво выдранные статьи , то это не в дорвееводство писать надо :). Тогда лучше почитать про регулярки.

Какая разница регулярки/не регулярки? Можете хоть стандартными функциями обработки строк парсить. Главное алгоритм пока толковый не спалили. А по шаблонам - это не совсем авто:o Хотя функционал у парсера VipRaskrutka приятный :)

firacet
На сайте с 23.07.2008
Offline
68
#26

А я вместо регулярок часто explode'ом вырезаю нудный кусок

$t = explode('начало',$t);

$t = $t[1];

$t = explode('конец',$t);

$t = $t[0];

;)

S
На сайте с 25.11.2007
Offline
143
#27

я регулярками фигачу

30 сайтов генерится чуть более часа в каждом всего около 10 статей

главное чтоб пс их заглатывали и не давились :)

VZ
На сайте с 16.09.2007
Offline
40
#28
solnikolay:
Какая разница регулярки/не регулярки? Можете хоть стандартными функциями обработки строк парсить. Главное алгоритм пока толковый не спалили. А по шаблонам - это не совсем авто:o Хотя функционал у парсера VipRaskrutka приятный :)

Разница есть. Особенно когда есть гора неуникальных элементов и будет гора уникальных, значение которых мы предсказать не можем.

Впрочем мой пост сводился больше к тому, что если нужен чистенький текст - то нужно затачивать под конкретный сайт/сайты - не будут универсальные решения красиво работать.

По поводу алгоритма толкового под универсальный парсер - я уверен что даже если его спалят, то ТС просто не сможет его реализовать.

response
На сайте с 01.12.2004
Offline
324
#29

универсальный парсер с текстовым конфигом написать не сложно. вот облечь это все в грамотный, удобный и эффективный гуй - вот это реально гемор. Но если вы сделаете подобную вещь, очень немногие решат выложить тулзу в паблик, пусть и за деньги.

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
LL
На сайте с 27.09.2007
Offline
39
#30
универсальный парсер статей

если задача - собрать статьи, чтобы использовать их именно как статьи, а не набивка для доров, то полный автомат никак невозможен... лучше потратить минуту на составление регэкспа и в результате иметь базу статей, чем собрать кучу говна на автопилоте, тем более поиск источников статей на автомат тоже особо не поставишь

1 234 5

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий