Универсальный парсер

A
На сайте с 29.12.2007
Offline
68
1100

Всем привет.

Хочется понять, нужен ли кому-то универсальный парсер контента страниц. На данный момент у нас есть такой, можно использовать через API. Пример: http://aktuba.ru/api.php

Только вводите, на данный момент, веб-адреса страниц (например, страница с полной новостью в wp), хотя и на любых других будет полезно потестить.

От заинтересованных хотелось бы услышать предложения/критику/просьбы и т.д.

D
На сайте с 09.07.2009
Offline
79
#1

Интересный сервис.

А каким принципом идёт отделение контента от мусора?

A
На сайте с 29.12.2007
Offline
68
#2
digwnews:
Интересный сервис.
А каким принципом идёт отделение контента от мусора?

Коротко это не описать... Достаточно много параметров и факторов учитывается для выделения контента из страницы. Да и не очень пока хочется рассказывать детали, если честно ;)

D
На сайте с 29.06.2011
Offline
2
#3

wordstat яндекса не парсит ((

ДП
На сайте с 23.11.2009
Offline
203
#4
digwnews:
Интересный сервис.
А каким принципом идёт отделение контента от мусора?

Расковыряйте Яндекс.бар - там есть функция видирания текст из страницы с единичной новостью. Включается по нажатию на амперсенд в адресной строке.

Есть еще алгоритм для таких вещей, правда вот название забыл :(

Скорее всего у ТС что-то более продвинутое, но общие приницы наверно и в я.баре посмотреть можно.

A
На сайте с 29.12.2007
Offline
68
#5
Diplodok:
wordstat яндекса не парсит ((

И не должен - там нет контента, одни ссылки

aktuba добавил 07.07.2011 в 17:50

Дикий пионер:
Расковыряйте Яндекс.бар - там есть функция видирания текст из страницы с единичной новостью. Включается по нажатию на амперсенд в адресной строке.
Есть еще алгоритм для таких вещей, правда вот название забыл :(

Скорее всего у ТС что-то более продвинутое, но общие приницы наверно и в я.баре посмотреть можно.

Так и есть. Начали с других алгоритмов, но функцию яндекса тоже изучали. Жаль, полноценно ее использовать в php не получилось - пришлось дописывать и переписывать.

aktuba добавил 08.07.2011 в 01:58

И это все мнения? Жаль... Думал, Вас заинтересует, как можно подобный парсер использовать =(

aktuba добавил 08.07.2011 в 14:40

Т.е., ни у кого, никаких предложений/вопросов нет? Не нужен никому подобный сервис?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий