- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше. Сохранение абзацев в принципе не важно. Какие есть инструменты? Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь. А автоматическое распознавание че-то не пашет.
Было бы еще лучше парсить сразу через ПС по определенным кеям.
Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь.
.
скинь адрес одного ресурса в ЛС - редко CD не берет, попробую проект составить - разве что разная верстка на всех страницах но такого не бывает
попробуй через демку в подписи.
Никанет, если надо в 1 файл то можно в кд потом просто открыть в браузере и скопировать текст
разве что разная верстка на всех страницах но такого не бывает
Блин, так и есть. Вы как читаете?
Есть список адресов страниц разных сайтов.
Никанет, если надо в 1 файл то можно в кд потом просто открыть в браузере и скопировать текст
Это значения не имеет, в один или в несколько. Мне нужно парсить чистый текст с разных сайтов.
Ну сохранение тегов еще можно отключить. Допустим я спарсил 1000 текстов. И сколько лет мне это полотно чистить от "на главную", "карта сайта", "друзья сайта" и т.п. ? А если буду прямо с мусором тексты заливать, юзеру будет неприятно читать и будут частые отказы. Это конено доры, но все же.
Вот я интересуюсь, какие есть инструменты, позволяющие распознавать чистый контент независимо от верстки?
Блин, так и есть. Вы как читаете?
Это значения не имеет, в один или в несколько. Мне нужно парсить чистый текст с разных сайтов.
Ну сохранение тегов еще можно отключить. Допустим я спарсил 1000 текстов. И сколько лет мне это полотно чистить от "на главную", "карта сайта", "друзья сайта" и т.п. ? А если буду прямо с мусором тексты заливать, юзеру будет неприятно читать и будут частые отказы. Это конено доры, но все же.
Вот я интересуюсь, какие есть инструменты, позволяющие распознавать чистый контент независимо от верстки?
Универсального 100% правильно работающего метода точно нет.
Я когда-то писал такое под себя, продумать алгоритм, который бы более менее стабильно выдавал чистый нужный контент так и не удалось.
Универсального 100% правильно работающего метода точно нет.
Но getpocket.com ведь как то это делает!?
Но getpocket.com ведь как то это делает!?
Глупо думать, что их алгоритм на 100% верно отделяет "нужный" контент от "не нужного". Это в принципе невозможно.
Есть библиотека simple_html_dom.php в открытом доступе. Немного глючная, но если погуглить и руки растут откуда надо, все работает прекрасно.
У меня эта штука трудится день и ночь, собирая нужный мне контент.
Глупо думать, что их алгоритм на 100% верно отделяет "нужный" контент от "не нужного". Это в принципе невозможно.
У меня есть мысль. Надо не только фильтровать по тегам, типа <p>, но и задавать минимальное количество знаков между тегами. Чтобы анкоры и всякий мусор не парсился, а текст парсился. 100% работать не будет, но качество повысится. В CD этой возможности нет.
---------- Добавлено 24.10.2012 в 15:07 ----------
Есть библиотека simple_html_dom.php в открытом доступе. Немного глючная, но если погуглить и руки растут откуда надо, все работает прекрасно.
У меня эта штука трудится день и ночь, собирая нужный мне контент.
Руки растут криво, гуглить лень 🤪 Возможно как-то по-другому решить этот вопрос?
Я оставлю здесь только это: DOM-дерево.