vawsan

vawsan
Рейтинг
8
Регистрация
20.10.2011
Никанет:
Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше. Сохранение абзацев в принципе не важно. Какие есть инструменты? Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь. А автоматическое распознавание че-то не пашет.

Было бы еще лучше парсить сразу через ПС по определенным кеям.

С контент доунлоадером замучаетесь, если все сайты на разных движках.

Поэтому советую выбирать один из универсальных парсеров контента, т.е.который самостоятельно определяет границы содержательной части контента каждой страницы.

Их сейчас достоточно много развелось, но я пользуюсь вот этим - Zparser

Собственно, вам и думать то не придется, нажал пару кнопок и поехало)

А пробив только вы сможете проверить, я не знаю какие у вас там движки.

Это опять сейчас появится куча сайтов, названия которых будут идентичны раскрученным в других доменных зонах. Зачем это делают - не понятно. И так перепродажа доменов процветает....

icidro:
Здравствуйте.

Если продвигать страницу по запросу "купить большие телеги" (прописать в title, h1, в тексте, купить ссылок с данным анкором), то будет ли она при этом автоматом продвигаться по части запроса - "большие" телеги?
Заранее благодарен за ответ.

Только сдается мне, что в запросе "большие" тебе успех врядли светит из-за того что это ВЧ, а значит париться на этот счет нет смысл мне кажется....

у меня больше всего на ggl показало)

SER.P:
Подскажите, почему сайт не может попасть в каталог? Уникальные статьи и сервисы (некоторым нет аналогов). Когда-то создавал первую тему "Оцените шанс сайта попасть в DMOZ" - /ru/forum/239499. Особо не горю желанием, просто интересно) Может кто из редакторов откликнется? Недавно опять подавал заявку. URL - http://www.raskruty.ru

Очень понравился сайт) Попадет)