- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Не надо меня в теоретики записывать. У нас похожая система есть и вполне успешно работает - и шаблоны на блоки разбивает, и контент выпиливает из кода.
Ну так просветите меня, каким образом она отделяет ненужные элементы страницы в автоматическом режиме?
Сверху от body парсим кусками увеличивая размер, пока блок не прекратит повторяться на страницах например всех. - Получаем шапку
Тоже самое делаем снизу - получаем футер
Что есть боди? Вот вам 200 сайтов с абсолютно разной разметкой и размещением блоков, обрисуйте мне архитектуру парсера
улыбнули, спасибо
Ну так просветите меня, каким образом она отделяет ненужные элементы страницы в автоматическом режиме?
А что сложного-то? Я, например, для своего парсера сделал простую систему (правда, на сервер так и не выложил, руки никак не дойдут): берем 2 страницы сайта, сравниваем их и выкидываем одинаковые блоки. 90% контентных страниц сайтов содержат одинаковую структуру.
Что есть боди? Вот вам 200 сайтов с абсолютно разной разметкой и размещением блоков, обрисуйте мне архитектуру парсера
Ловите готовый пример ;) Только вставляйте ссылки на контентные страницы, а не на страницы, наподобии yandex.ru. Кстати, у меня этот парсер уже на 3-х сайтах работает, почти без сбоев )))