Хочу заказать системку... помогите с тз и идейками плиз...

1 23
S5
На сайте с 04.01.2010
Offline
77
#21
minSEO:
Не надо меня в теоретики записывать. У нас похожая система есть и вполне успешно работает - и шаблоны на блоки разбивает, и контент выпиливает из кода.

Ну так просветите меня, каким образом она отделяет ненужные элементы страницы в автоматическом режиме?

Парсим сначала что в body
Сверху от body парсим кусками увеличивая размер, пока блок не прекратит повторяться на страницах например всех. - Получаем шапку
Тоже самое делаем снизу - получаем футер

Что есть боди? Вот вам 200 сайтов с абсолютно разной разметкой и размещением блоков, обрисуйте мне архитектуру парсера

За месяц - если видео с ютуба, новости из одного поля в базе, вопросы и ответы слеплены из форума и т.п. Особенно интересно, сколько вы выделили время в этом месяце на пункт "Некоторые разделы с парсерами для автонаполнения.".

улыбнули, спасибо

A
На сайте с 29.12.2007
Offline
68
#22
sg552:
Ну так просветите меня, каким образом она отделяет ненужные элементы страницы в автоматическом режиме?

А что сложного-то? Я, например, для своего парсера сделал простую систему (правда, на сервер так и не выложил, руки никак не дойдут): берем 2 страницы сайта, сравниваем их и выкидываем одинаковые блоки. 90% контентных страниц сайтов содержат одинаковую структуру.

sg552:
Что есть боди? Вот вам 200 сайтов с абсолютно разной разметкой и размещением блоков, обрисуйте мне архитектуру парсера

Ловите готовый пример ;) Только вставляйте ссылки на контентные страницы, а не на страницы, наподобии yandex.ru. Кстати, у меня этот парсер уже на 3-х сайтах работает, почти без сбоев )))

1 23

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий