Оцените пожалуйста парсер страницы.

12 3
[Удален]
2108

Скрипт распознает статью на странице. Урл - ссылка на страницу со статьей:

Ссылка: http://seshop.ru/parser/

Может быть у кого есть мысли как это можно получше заюзать?

Просьба оценить сам алгоритм. Если возникают баги при парсинге текст урл плиз в личку.

Если возникнут желающие, то на основе этого алгоритма можно сделать полноценный парсер с подгрузкой всех страниц домена и т.д.

Добрый дорвейщик
На сайте с 11.12.2007
Offline
83
#1
ЧерныйKот:
Скрипт распознает статью на странице. Урл - ссылка на страницу со статьей:
Ссылка: http://seshop.ru/parser/
Может быть у кого есть мысли как это можно получше заюзать?

Потестил несколько минут... Косяков не заметил. Есть исключения... но это мелочи (пример, mail.ru , собака как-то пролазит через ваши регулярки).

Хорошенько бы оттестировали и все ок, почти готовый продукт :).

А насчет применения и так понятно :). Умный, быстрый парсер никогда не был лишним ☝. Мой нынешний (писался лезвием на заказ) меня, например, не устраивает (часто пропускает теги... часто траблы с кодировкой).

response
На сайте с 01.12.2004
Offline
324
#2

ну так себе:

http://l00t.ru/magadan:
<hr> burunduk
06.03.2008 17:59
Андрей
06.03.2008 18:15
99th
06.03.2008 18:30
06.03.2008 22:07
99th
06.03.2008 22:31
06.03.2008 23:26
06.03.2008 23:29
99th
06.03.2008 23:42
06.03.2008 23:57
99th
07.03.2008 00:02
07.03.2008 00:09
99th
07.03.2008 00:10
Alexander
07.03.2008 09:54
tyt1
07.03.2008 10:50
tyt1
07.03.2008 10:52
tyt1
07.03.2008 11:40
99th
07.03.2008 13:26
tyt1
07.03.2008 18:01
99th
07.03.2008 18:13
tyt1
07.03.2008 20:24
99th
07.03.2008 21:06
tyt1
07.03.2008 21:39
99th
07.03.2008 21:56
tyt1
08.03.2008 09:47
99th
08.03.2008 15:12
Виктор
08.03.2008 16:31
99th
08.03.2008 20:49
09.03.2008 03:55
Сергей
09.03.2008 19:19
99th
09.03.2008 20:28
Сергей
09.03.2008 21:09
10.03.2008 11:13
99th
11.03.2008 02:18
Alexander
12.03.2008 16:22
Alexander
12.03.2008 16:33
99th
12.03.2008 17:39
<hr>

а применение, по-моему, напрашивается само собой: спарсить весь смысловой контент рунета. Если есть бот, который правильно определяет как рипнуть смысловое содержимое без предварительной ручной подготовки к парсингу (забивание сигнатур, и пр), то его предназначение - рипать все подряд (поскольку в "подряд" его основная фишка). Я бы пустил его по инету гулять, через пару месяцев у вас на руках был бы огромный текстовый корпус. А если еще и обдуманно направлять его в кравлинге, то вообще красота.

зы

ждем появления ен_слона, который скажет, что у него целая команда разработчиков и ноу-хау механизм для создания роботов, и он сейчас все разрулит, если вы согласитесь работать с ним в доле 😂

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
Conroe
На сайте с 01.03.2008
Offline
137
#3
ЧерныйKот:
Скрипт распознает статью на странице. Урл - ссылка на страницу со статьей:
Ссылка: http://seshop.ru/parser/
Может быть у кого есть мысли как это можно получше заюзать?

ты его продавать будешь?

от языка не зависит +

работает быстро +

но, такие ковычки {} не игнорирует?

или статья такая попалась?

Изучаю женские секреты красоты (http://allwomensecret.ru/)
S
На сайте с 13.07.2007
Offline
56
#4

Ни ferra.ru, ни ixbt.com не прохавал (именно заглавные страницы).

Выдирает только текст, расположенный в тегах <p></p>, обрубая ссылки и картинки?

orphelin
На сайте с 02.07.2006
Offline
261
#5

из тегов <strong> текст не хавает..

[Удален]
#6

Главные страницы хреново работают т.к. там текста немного. чем в статье больше текста тем лучше.

C форумами тоже не очень работает.

Нет на тег параграфа вообще никак не завязано.

Картинки пока игнорируются, но привязать их использование не проблема.

Вообще мысли такие, сделать парсер статей. Т.е. ввел ссылку либо список ссылок и тебе выдаются статьи, а потом их экспортируешь в нужный формат sql либо CMS. Видел подобный продукт но идея загнулась т.к. небыло качественного саппорта и обновлений. Если продукт действительно востребован, я могу занятся разработкой. Поэтому пожалуйста отписываем мысли, если хотите что то видеть особое тоже напишите :)

ЧерныйKот добавил 14.03.2008 в 11:09

P.S. если обнаружили баги пример урла плиз в личку.

S
На сайте с 13.07.2007
Offline
56
#7

ЧерныйKот, тащи уж и ссылки на сами статьи в пределах домена. Чего их руками-то все забивать.

[Удален]
#8
solnikolay:
ЧерныйKот, тащи уж и ссылки на сами статьи в пределах домена. Чего их руками-то все забивать.

Если на основе этого алгоритма софт будет востребован, то естественно все будет работать автоматом.

Сделал бы и сейчас, но у меня хостинг дешевый, думаю админы будут ругатся если пользователи SE форума создадут довольно объемный траф.

newseditor
На сайте с 13.11.2006
Offline
123
#9
solnikolay:
ЧерныйKот, тащи уж и ссылки на сами статьи в пределах домена. Чего их руками-то все забивать.

+1. Без автоматики смысла нет. Руками быстрее текст скопипастить можно, чем парсером.

Y
На сайте с 22.02.2008
Offline
96
#10

не хочет работать, ввел 3 адреса - результат один:

<hr><hr>
---coming soon---
12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий