Комментарии - vawsan - Профиль вебмастера - Форум об интернет-маркетинге

Как парсить с разных сайтов чистый текст?

25 октября 2012, 20:20

Никанет:
Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше. Сохранение абзацев в принципе не важно. Какие есть инструменты? Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь. А автоматическое распознавание че-то не пашет.

Было бы еще лучше парсить сразу через ПС по определенным кеям.

С контент доунлоадером замучаетесь, если все сайты на разных движках.

Поэтому советую выбирать один из универсальных парсеров контента, т.е.который самостоятельно определяет границы содержательной части контента каждой страницы.

Их сейчас достоточно много развелось, но я пользуюсь вот этим - Zparser

Собственно, вам и думать то не придется, нажал пару кнопок и поехало)

А пробив только вы сможете проверить, я не знаю какие у вас там движки.

Новая зона всего за 185к$

12 декабря 2011, 18:41

Это опять сейчас появится куча сайтов, названия которых будут идентичны раскрученным в других доменных зонах. Зачем это делают - не понятно. И так перепродажа доменов процветает....

Будет ли страница продвигаться по части запроса?

23 октября 2011, 16:06

icidro:
Здравствуйте.

Если продвигать страницу по запросу "купить большие телеги" (прописать в title, h1, в тексте, купить ссылок с данным анкором), то будет ли она при этом автоматом продвигаться по части запроса - "большие" телеги?
Заранее благодарен за ответ.

Только сдается мне, что в запросе "большие" тебе успех врядли светит из-за того что это ВЧ, а значит париться на этот счет нет смысл мне кажется....

pr-y.ru - сервис определения заработка сайта в различных партнёрках

21 октября 2011, 17:21

у меня больше всего на ggl показало)

Оцените шанс сайта попасть в DMOZ - тема 3

20 октября 2011, 19:54

SER.P:
Подскажите, почему сайт не может попасть в каталог? Уникальные статьи и сервисы (некоторым нет аналогов). Когда-то создавал первую тему "Оцените шанс сайта попасть в DMOZ" - /ru/forum/239499. Особо не горю желанием, просто интересно) Может кто из редакторов откликнется? Недавно опять подавал заявку. URL - http://www.raskruty.ru

Очень понравился сайт) Попадет)

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

vawsan