Алгоритм выделения статьи из страницы

TF-Studio
На сайте с 17.08.2010
Offline
334
855

Приветствую коллеги

Активно ищу.

Потестил:

  • Readability
  • php-goose
  • WebArticleExtractor

Но что-то все не так

Есть что-то более простое и качественное?

php строго

Всё ещё лучший способ заработка для белых сайтов: GoGetLinks (https://www.gogetlinks.net/?inv=fahbn8).
TF-Studio
На сайте с 17.08.2010
Offline
334
#1

Ни у кого нету опыта или хотя бы идей?

ДП
На сайте с 23.11.2009
Offline
203
#2

Немножко занимался данным вопросом, но вообще смотрел Readablity и его порт на php допиливал.

Была идея по отбрасыванию ненужного - выделять xpath элементов и смотреть, те, которые отличаются немного (индексами как правило) - меню всякие отсекать, у которых структура одинаковая.

Еще в мозилле была кнопка (от элементов яндекса вроде, но могу ошибаться) в адресной строке - она тоже версию для чтения делала неплохо (но я особо не тестил) - но как она внутри устроена - не знаю.

TF-Studio
На сайте с 17.08.2010
Offline
334
#3
Еще в мозилле была кнопка

Чудесная кнопка.

Есть 3 алгоритма выделения статьи.

1. Computer Sience (дорого)

2. Выделение как вы написали, сравнение страниц, соседних.

3. алгоритм Readablity

Readablity использую, пробив успешных около 70%

Вероятно есть что-то более интересное.

ДП
На сайте с 23.11.2009
Offline
203
#4

Я бы наверно Readability и модифицировал, корректируя по примерам страниц, где он не сработал

IPXI
На сайте с 04.11.2015
Offline
126
#5

я не совсем в теме, но разве нельзя выделять статью из страницы, определяя просто самый длинный кусок текста. Кажется на хабре читал о таком подходе, но не могу найти ссылку

---------- Добавлено 29.01.2016 в 02:44 ----------

Нашёл, вот это не то? http://habrahabr.ru/company/mailru/blog/200394/

---------- Добавлено 29.01.2016 в 03:12 ----------

в мозилле и сейчас эта кнопка и насколько я понимаю она как раз выделяет текст примерно от 1000 символов, потому как на маленьких текстах и разбитых на части она не появляется.

TF-Studio
На сайте с 17.08.2010
Offline
334
#6

Готового решения нету.

и если посмотреть топ сайтов (включая старые), то по большому пласту запросов ничего не выйдет получить.

посмотрите новостные сайты, где куча анонсов.

а если взять: сруб дома (к примеру), где все результаты - каталогами будут.

D
На сайте с 14.01.2007
Offline
153
#7

сейчас решаю такую же проблему. на данный момент это выглядит так:

1. сравниваем 2 страницы(DOMы), чтобы найти навигацию

2. потом опять идём по дереву и сравниваем ветки: если в одной сравнительно мало текста(пару %) - ф топку

косяков естественно много, но для себя оставил пока этот вариант

TF-Studio
На сайте с 17.08.2010
Offline
334
#8

Dinozavr, планируете решение выкладывать в паблик?

D
На сайте с 14.01.2007
Offline
153
#9
TF-Studio:
Dinozavr, планируете решение выкладывать в паблик?

это врядли :) во-первых - питон, а во-вторых мне придётся пару дней этот код до ума доводить и комментировать, чтобы не стыдно было людям показать;)

TF-Studio
На сайте с 17.08.2010
Offline
334
#10
Dinozavr:
это врядли :) во-первых - питон, а во-вторых мне придётся пару дней этот код до ума доводить и комментировать, чтобы не стыдно было людям показать;)

Это - частая причина, почему я мало выкладываю, понимаю )

ибо код работает - ну и супер, я понимаю, багов нету. а вот для паблика - слишком много магии

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий