Алгоритм выделения статьи из страницы

334

TF-Studio

19 января 2016, 18:31

855

Приветствую коллеги

Активно ищу.

Потестил:

Readability
php-goose
WebArticleExtractor

Но что-то все не так

Есть что-то более простое и качественное?

php строго

Всё ещё лучший способ заработка для белых сайтов: GoGetLinks (https://www.gogetlinks.net/?inv=fahbn8).

334

TF-Studio

21 января 2016, 15:10

#1

Ни у кого нету опыта или хотя бы идей?

ДП

203

Дикий пионер

21 января 2016, 15:40

#2

Немножко занимался данным вопросом, но вообще смотрел Readablity и его порт на php допиливал.

Была идея по отбрасыванию ненужного - выделять xpath элементов и смотреть, те, которые отличаются немного (индексами как правило) - меню всякие отсекать, у которых структура одинаковая.

Еще в мозилле была кнопка (от элементов яндекса вроде, но могу ошибаться) в адресной строке - она тоже версию для чтения делала неплохо (но я особо не тестил) - но как она внутри устроена - не знаю.

Где можно посмотреть исходный Affiliate Egg - Wordpress Фильтр малополезный контент -

334

TF-Studio

21 января 2016, 17:15

#3

Еще в мозилле была кнопка

Чудесная кнопка.

Есть 3 алгоритма выделения статьи.

1. Computer Sience (дорого)

2. Выделение как вы написали, сравнение страниц, соседних.

3. алгоритм Readablity

Readablity использую, пробив успешных около 70%

Вероятно есть что-то более интересное.

ДП

203

Дикий пионер

21 января 2016, 19:34

#4

Я бы наверно Readability и модифицировал, корректируя по примерам страниц, где он не сработал

1

126

IPXI

28 января 2016, 23:29

#5

я не совсем в теме, но разве нельзя выделять статью из страницы, определяя просто самый длинный кусок текста. Кажется на хабре читал о таком подходе, но не могу найти ссылку

---------- Добавлено 29.01.2016 в 02:44 ----------

Нашёл, вот это не то? http://habrahabr.ru/company/mailru/blog/200394/

---------- Добавлено 29.01.2016 в 03:12 ----------

в мозилле и сейчас эта кнопка и насколько я понимаю она как раз выделяет текст примерно от 1000 символов, потому как на маленьких текстах и разбитых на части она не появляется.

1

Как оптимизировать, когда всё Количество выделения жирным Какими программами вы делаете

334

TF-Studio

29 января 2016, 07:16

#6

Готового решения нету.

и если посмотреть топ сайтов (включая старые), то по большому пласту запросов ничего не выйдет получить.

посмотрите новостные сайты, где куча анонсов.

а если взять: сруб дома (к примеру), где все результаты - каталогами будут.

Google ответил на частые Яндекс включил фильтр на Google запустил инструмент для

D

153

Dinozavr

29 января 2016, 07:51

#7

сейчас решаю такую же проблему. на данный момент это выглядит так:

1. сравниваем 2 страницы(DOMы), чтобы найти навигацию

2. потом опять идём по дереву и сравниваем ветки: если в одной сравнительно мало текста(пару %) - ф топку

косяков естественно много, но для себя оставил пока этот вариант

1

Яндекс Вебмастер добавил в Определение аффилиатов в Яндексе Пять фишек поисковой аналитики,

334

TF-Studio

29 января 2016, 08:07

#8

Dinozavr, планируете решение выкладывать в паблик?

D

153

Dinozavr

29 января 2016, 08:17

#9

TF-Studio:
Dinozavr, планируете решение выкладывать в паблик?

это врядли :) во-первых - питон, а во-вторых мне придётся пару дней этот код до ума доводить и комментировать, чтобы не стыдно было людям показать;)

1

334

TF-Studio

29 января 2016, 08:33

#10

Dinozavr:
это врядли :) во-первых - питон, а во-вторых мне придётся пару дней этот код до ума доводить и комментировать, чтобы не стыдно было людям показать;)

Это - частая причина, почему я мало выкладываю, понимаю )

ибо код работает - ну и супер, я понимаю, багов нету. а вот для паблика - слишком много магии

1

Open AI тестирует память для ChatGPT

Что делать, если ваша email-рассылка попала в спам