- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Приветствую коллеги
Активно ищу.
Потестил:
Но что-то все не так
Есть что-то более простое и качественное?
php строго
Ни у кого нету опыта или хотя бы идей?
Немножко занимался данным вопросом, но вообще смотрел Readablity и его порт на php допиливал.
Была идея по отбрасыванию ненужного - выделять xpath элементов и смотреть, те, которые отличаются немного (индексами как правило) - меню всякие отсекать, у которых структура одинаковая.
Еще в мозилле была кнопка (от элементов яндекса вроде, но могу ошибаться) в адресной строке - она тоже версию для чтения делала неплохо (но я особо не тестил) - но как она внутри устроена - не знаю.
Чудесная кнопка.
Есть 3 алгоритма выделения статьи.
1. Computer Sience (дорого)
2. Выделение как вы написали, сравнение страниц, соседних.
3. алгоритм Readablity
Readablity использую, пробив успешных около 70%
Вероятно есть что-то более интересное.
Я бы наверно Readability и модифицировал, корректируя по примерам страниц, где он не сработал
я не совсем в теме, но разве нельзя выделять статью из страницы, определяя просто самый длинный кусок текста. Кажется на хабре читал о таком подходе, но не могу найти ссылку
---------- Добавлено 29.01.2016 в 02:44 ----------
Нашёл, вот это не то? http://habrahabr.ru/company/mailru/blog/200394/
---------- Добавлено 29.01.2016 в 03:12 ----------
в мозилле и сейчас эта кнопка и насколько я понимаю она как раз выделяет текст примерно от 1000 символов, потому как на маленьких текстах и разбитых на части она не появляется.
Готового решения нету.
и если посмотреть топ сайтов (включая старые), то по большому пласту запросов ничего не выйдет получить.
посмотрите новостные сайты, где куча анонсов.
а если взять: сруб дома (к примеру), где все результаты - каталогами будут.
сейчас решаю такую же проблему. на данный момент это выглядит так:
1. сравниваем 2 страницы(DOMы), чтобы найти навигацию
2. потом опять идём по дереву и сравниваем ветки: если в одной сравнительно мало текста(пару %) - ф топку
косяков естественно много, но для себя оставил пока этот вариант
Dinozavr, планируете решение выкладывать в паблик?
Dinozavr, планируете решение выкладывать в паблик?
это врядли :) во-первых - питон, а во-вторых мне придётся пару дней этот код до ума доводить и комментировать, чтобы не стыдно было людям показать;)
это врядли :) во-первых - питон, а во-вторых мне придётся пару дней этот код до ума доводить и комментировать, чтобы не стыдно было людям показать;)
Это - частая причина, почему я мало выкладываю, понимаю )
ибо код работает - ну и супер, я понимаю, багов нету. а вот для паблика - слишком много магии