- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
ТС, чего Вы крутите?
Если хорошо подумать головой можно регулярками отсеять все лишнее что бы с вероятностью 70-80% получить чистый текст.
Не подходит такое вхождение - ну извините...
искусственный интеллект уже есть просто вам не сказали:)
;)
Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше. Сохранение абзацев в принципе не важно. Какие есть инструменты? Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь. А автоматическое распознавание че-то не пашет.
Было бы еще лучше парсить сразу через ПС по определенным кеям.
С контент доунлоадером замучаетесь, если все сайты на разных движках.
Поэтому советую выбирать один из универсальных парсеров контента, т.е.который самостоятельно определяет границы содержательной части контента каждой страницы.
Их сейчас достоточно много развелось, но я пользуюсь вот этим - Zparser
Собственно, вам и думать то не придется, нажал пару кнопок и поехало)
А пробив только вы сможете проверить, я не знаю какие у вас там движки.
А что там в ручную настраивать? Нажать в браузере Ctrl+U посмотреть границы парсинга и указать их программе. :) Предварительно 1 раз, для всех сайтов, можно настроить шаблон сохранения.
Вы внимательно прочитали мое предыдущее сообщение?
ТС, чего Вы крутите?
Если хорошо подумать головой можно регулярками отсеять все лишнее что бы с вероятностью 70-80% получить чистый текст.
Не подходит такое вхождение - ну извините...
Сколько стоит?
vawsan, Описание достаточно вкусное, посмотрим что она может.
---------- Добавлено 26.10.2012 в 15:34 ----------
Только zparser вроде как не может парсить ключи по списку. Это огромный минус.
Чё то не вижу никакой проблемы. Это парсинг рсс и чистка от мусора.м Я тебе хоть щас пару видео покажу того о чём ты говоришь.
Это парсинг чужого контента по урлам. И парсинг по кеям .
Вопрос в том,что дальше будешь делать со спаршенным.
Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше.
Покажите пример страницы для парсинга.
Еще про zparser. Он парсит все сайты выдачи, а мне достаточно по одному. А потом разбивает спарсенное на статьи. Т.е. получается если задашь 1000 знаков, а на первом сайте 200, прога к этому же текст добавит 800 со следующего сайта. Вывод - не подходит. С таким же успехом можно парсить сниппеты.
Чё то не вижу никакой проблемы. Это парсинг рсс и чистка от мусора.м Я тебе хоть щас пару видео покажу того о чём ты говоришь.
Это парсинг чужого контента по урлам. И парсинг по кеям .
Давай, а то я тоже тебя не понял) Опиши весь процесс подробнее. Какая программа может выдирать конкретную статью из rss (которая была в выдаче)? Это если вообще есть на сайте rss и статьи там отображаются полностью.
---------- Добавлено 26.10.2012 в 18:41 ----------
sasha_123, а смысл? Эти страницы могут быть какие угодно. В этом вся проблема. Забейте любую фразу в выдаче и будет пример :) То что список есть я сказал условно.
---------- Добавлено 26.10.2012 в 18:44 ----------
В общем, кто желает помочь за разумное вознаграждение, стучите в личку.
Пара человек, опровергнувших несуществование ИИ, к сожалению отказались помочь.
Еще про zparser. Он парсит все сайты выдачи, а мне достаточно по одному. А потом разбивает спарсенное на статьи. Т.е. получается если задашь 1000 знаков, а на первом сайте 200, прога к этому же текст добавит 800 со следующего сайта. Вывод - не подходит. С таким же успехом можно парсить сниппеты.
Давай, а то я тоже тебя не понял) Опиши весь процесс подробнее. Какая программа может выдирать конкретную статью из rss (которая была в выдаче)? Это если вообще есть на сайте rss и статьи там отображаются полностью.
.
http://www.youtube.com/watch?feature=player_embedded&v=dOwxvcPtUF4
источником может быть любой рсс на любом языке. Если у источника нет рсс,то юзаем сервисы делания рсс и парсим их. Если рсс короткий а надо выпарсить полный текст,то юзаем сервис вытягивания полного текста и парсим его.
Например езинартикл http://www.youtube.com/watch?feature=player_embedded&v=WQ6u5NN8sjY
Это касаемо парсинга урлов было.
По поводу парсинга по кею, парсятся http://tbp3.ru/promo2.php причём по заданным параметрам. Можно настраивать сколько страниц топа парсить за раз и т.д.
И это делается не разово,а на постоянной основе. Т.е. софт если настроил,автоматом каждый день ходит смотрит есть ли свежак,если есть,парсит.
Но почему я спрашивал для чего надо. Так как он парсит и складывает в базу вордпреса.Откуда потом берёт по одной статье и постит,либо если надо объединит статьи или видео и запостит.
И получается круговорот, каждый день само ищет,само парсит,само постит. И так всегда.
Зы,и это не реклама,это логика по которой программа устроена. 🤣
sasha_123, а смысл? Эти страницы могут быть какие угодно. В этом вся проблема. Забейте любую фразу в выдаче и будет пример
Забил 😂
Страница: http://www.mukhin.ru/new_house/Repairing_and_repair/how_to_lay_linoleum.html (ремонт для меня сейчас актуален :))
Вот что выдал парсер, написанный ещё лет 5 назад:
sasha_123, если хотите что-то предложить по теме, делайте это более конкретно. А верстка слишком простая. Будь все сайты такими, я бы тупо юзал content downloader с тегом p.