- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте, подскажите можно ли как то определить блок на сайте в котором наибольше информации.
PS,делаю парсер сайтов. на исходе не знаю какой сайт будет но нужно взять только конттент, поэтому думаю нужно брать лишь самый большой блок по информации
meverikxp, в <body></body> как правило больше всего, но бывают и исключения :)
meverikxp, в <body></body> как правило больше всего, но бывают и исключения :)
Оно и правильно но так попадут и всякие ракламки с сайта которые вверху или слева, справа, так же футер и шапка это все в боди, хотелось более красиво сделать
meverikxp, это похоже на то, если бы Вы приехали в супермаркет за суповым набором на экскаваторе и давай ездить по рядам :)
Для каждого типа сайтов нужно разрабатывать свои модули для парсера. Если брать, к примеру, форумы, то должен быть отдельный модуль для vBulletin, phpBB, SMF и т.д. Это, если нужен "аккуратный" парсер.
В противном случае, Вам нужно искать на сайте(ах) блоки (например <div></div>), в которых число "Plaintext разделить на HTML-код" будет наибольшим. Там и будет больше всего контента.
В противном случае, Вам нужно искать на сайте(ах) блоки (например <div></div>), в которых число "Plaintext разделить на HTML-код" будет наибольшим. Там и будет больше всего контента.
полностью поддерживаю, сам так делал когда-то
meverikxp, это похоже на то, если бы Вы приехали в супермаркет за суповым набором на экскаваторе и давай ездить по рядам :)
Для каждого типа сайтов нужно разрабатывать свои модули для парсера. Если брать, к примеру, форумы, то должен быть отдельный модуль для vBulletin, phpBB, SMF и т.д. Это, если нужен "аккуратный" парсер.
В противном случае, Вам нужно искать на сайте(ах) блоки (например <div></div>), в которых число "Plaintext разделить на HTML-код" будет наибольшим. Там и будет больше всего контента.
В принципе согласен, еще один момент как лучше парсить использовать регулярное выражение (не пойму конечно как найти будет закрывающийся тег нужного блока) или использовать библиотеку (если да то какую). Спасибо!
В принципе согласен, еще один момент как лучше парсить использовать регулярное выражение (не пойму конечно как найти будет закрывающийся тег нужного блока) или использовать библиотеку (если да то какую). Спасибо!
XPath используйте.