Оцените пожалуйста парсер страницы.

[Удален]

14 марта 2008, 06:08

2129

Скрипт распознает статью на странице. Урл - ссылка на страницу со статьей:

Может быть у кого есть мысли как это можно получше заюзать?

Просьба оценить сам алгоритм. Если возникают баги при парсинге текст урл плиз в личку.

Если возникнут желающие, то на основе этого алгоритма можно сделать полноценный парсер с подгрузкой всех страниц домена и т.д.

83

Добрый дорвейщик

14 марта 2008, 06:33

#1

ЧерныйKот:
Скрипт распознает статью на странице. Урл - ссылка на страницу со статьей:
Ссылка: http://seshop.ru/parser/
Может быть у кого есть мысли как это можно получше заюзать?

Потестил несколько минут... Косяков не заметил. Есть исключения... но это мелочи (пример, mail.ru , собака как-то пролазит через ваши регулярки).

Хорошенько бы оттестировали и все ок, почти готовый продукт :).

А насчет применения и так понятно :). Умный, быстрый парсер никогда не был лишним ☝. Мой нынешний (писался лезвием на заказ) меня, например, не устраивает (часто пропускает теги... часто траблы с кодировкой).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

324

response

14 марта 2008, 06:43

#2

ну так себе:

http://l00t.ru/magadan:
<hr> burunduk
06.03.2008 17:59
Андрей
06.03.2008 18:15
99th
06.03.2008 18:30
06.03.2008 22:07
99th
06.03.2008 22:31
06.03.2008 23:26
06.03.2008 23:29
99th
06.03.2008 23:42
06.03.2008 23:57
99th
07.03.2008 00:02
07.03.2008 00:09
99th
07.03.2008 00:10
Alexander
07.03.2008 09:54
tyt1
07.03.2008 10:50
tyt1
07.03.2008 10:52
tyt1
07.03.2008 11:40
99th
07.03.2008 13:26
tyt1
07.03.2008 18:01
99th
07.03.2008 18:13
tyt1
07.03.2008 20:24
99th
07.03.2008 21:06
tyt1
07.03.2008 21:39
99th
07.03.2008 21:56
tyt1
08.03.2008 09:47
99th
08.03.2008 15:12
Виктор
08.03.2008 16:31
99th
08.03.2008 20:49
09.03.2008 03:55
Сергей
09.03.2008 19:19
99th
09.03.2008 20:28
Сергей
09.03.2008 21:09
10.03.2008 11:13
99th
11.03.2008 02:18
Alexander
12.03.2008 16:22
Alexander
12.03.2008 16:33
99th
12.03.2008 17:39
<hr>

а применение, по-моему, напрашивается само собой: спарсить весь смысловой контент рунета. Если есть бот, который правильно определяет как рипнуть смысловое содержимое без предварительной ручной подготовки к парсингу (забивание сигнатур, и пр), то его предназначение - рипать все подряд (поскольку в "подряд" его основная фишка). Я бы пустил его по инету гулять, через пару месяцев у вас на руках был бы огромный текстовый корпус. А если еще и обдуманно направлять его в кравлинге, то вообще красота.

зы

ждем появления ен_слона, который скажет, что у него целая команда разработчиков и ноу-хау механизм для создания роботов, и он сейчас все разрулит, если вы согласитесь работать с ним в доле 😂

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)

137

Conroe

14 марта 2008, 07:18

#3

ЧерныйKот:
Скрипт распознает статью на странице. Урл - ссылка на страницу со статьей:
Ссылка: http://seshop.ru/parser/
Может быть у кого есть мысли как это можно получше заюзать?

ты его продавать будешь?

от языка не зависит +

работает быстро +

но, такие ковычки {} не игнорирует?

или статья такая попалась?

Изучаю женские секреты красоты (http://allwomensecret.ru/)

S

56

solnikolay

14 марта 2008, 07:50

#4

Ни ferra.ru, ни ixbt.com не прохавал (именно заглавные страницы).

Выдирает только текст, расположенный в тегах <p></p>, обрубая ссылки и картинки?

261

orphelin

14 марта 2008, 08:02

#5

из тегов <strong> текст не хавает..

[Удален]

14 марта 2008, 08:09

#6

Главные страницы хреново работают т.к. там текста немного. чем в статье больше текста тем лучше.

C форумами тоже не очень работает.

Нет на тег параграфа вообще никак не завязано.

Картинки пока игнорируются, но привязать их использование не проблема.

Вообще мысли такие, сделать парсер статей. Т.е. ввел ссылку либо список ссылок и тебе выдаются статьи, а потом их экспортируешь в нужный формат sql либо CMS. Видел подобный продукт но идея загнулась т.к. небыло качественного саппорта и обновлений. Если продукт действительно востребован, я могу занятся разработкой. Поэтому пожалуйста отписываем мысли, если хотите что то видеть особое тоже напишите :)

ЧерныйKот добавил 14.03.2008 в 11:09

P.S. если обнаружили баги пример урла плиз в личку.

S

56

solnikolay

14 марта 2008, 08:15

#7

ЧерныйKот, тащи уж и ссылки на сами статьи в пределах домена. Чего их руками-то все забивать.

[Удален]

14 марта 2008, 08:21

#8

solnikolay:
ЧерныйKот, тащи уж и ссылки на сами статьи в пределах домена. Чего их руками-то все забивать.

Если на основе этого алгоритма софт будет востребован, то естественно все будет работать автоматом.

Сделал бы и сейчас, но у меня хостинг дешевый, думаю админы будут ругатся если пользователи SE форума создадут довольно объемный траф.

123

newseditor

14 марта 2008, 08:28

#9

solnikolay:
ЧерныйKот, тащи уж и ссылки на сами статьи в пределах домена. Чего их руками-то все забивать.

+1. Без автоматики смысла нет. Руками быстрее текст скопипастить можно, чем парсером.

Y

96

yaks

14 марта 2008, 08:37

#10

не хочет работать, ввел 3 адреса - результат один:

<hr><hr>

---coming soon---

Маркетинг для шоколадной фабрики. На 34% выше средний чек

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи