- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте!
Эта тема немного не в кассу, но все же...
Есть несколько сайтов, по которым хотелось бы собрать статистику вида: кол-во страниц сайта, средний размер страницы, самая "легкая" страница и самая "тяжелая" страница. Должен сразу оговориться, что статистику надо подбивать по всем сайтам сразу и по каждому в отдельности.
В связи с чем собственно вопрос: подскажет ли кто с какой стороны браться за задачу? может кто порекомендует "распотрошить" какой поисковичек (точнее индексер от него)?
P.S. Хотелось бы задачу решить средствами PERL или C/C++
Zerg WereWolf, потрошить кого-то не обязятельно.
Как выдернуть все ссылки из страницы написано в мануале к перлу.
Очередь этих ссылок думаю и сам догадаешься как организовать.
Дальше - только канал широкий нужен, который как правило у хостера есть :)
Ммм... распотрошил я странички на предмет ссылок - ок, но (!) там ссылки не только на этот сайт, но и на другие + картинки, pdf-ки, wrl-ки, co-ки и многое еще чего, что считать не нужно. Метод HEAD не всегда пролезет - контент большей частью динамический. По части ширины канала не беспокойтесь - до того, что я собрался обсчитывать канал 100 Mbps... Кстати, по части очередей - оптимизировать это дело никак нельзя?
http://search.cpan.org/dist/HTML-Parser/lib/HTML/LinkExtor.pm
Анализ полученных ссылок - regexp'ы.
Оптимизация... ну если нужно обойти все подряд ссылки, то что тут оптимизировать-то? Ну несколько процессов в параллель запустить...
А wget не подойдет? Скачать им все страницы на диск, а потом посчитать размеры файлов. По ссылкам он сам ходить умеет, только ему ключик нужно указать, чтобы он рекурсивно страницы обходил.
А wget не подойдет? Скачать им все страницы на диск, а потом посчитать размеры файлов. По ссылкам он сам ходить умеет, только ему ключик нужно указать, чтобы он рекурсивно страницы обходил.
Скачивать wget-ом несколько гигабайт? - глупо...
Чтобы найти самую "легкую" и самую "тяжелую" страницу, Вам этих гигов не избежать. wget - действительно один из вариантов.
Помниться у wgeta есть ключик, который позволяет не скачивать, а лишь проверять наличие. Возможно в ответе он сообщает размер.
Reanimator, в некоторых случаях невозможно узнать размер страницы предварительно её целиком не выкачав. Особенности протокола. Кроме того, wget вряд ли умеет обходить ловушки с session_id...
Другое дело, что вероятно имеет смысл обратиться к исходникам wget'а и дописать недостающее...