- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Всем привет.
Хочу всем форумчанам предложить снять интересующие их показатели со списка Alexa Top 1M.
Мы ежеденвно сканим этот список и можем добавить что-то, что вы хотите отследить в исследовательских целях. Интересной информации, как вы понимаете, там много.
Примеры: сравнить количество систем веб-аналитики установленных на разных сайтах, узнать сколько порно в интернете, сравнить количественно сайты, использующие shema/opengraph, отследить распространение какого-нибудь сервиса, что угодно.
Весь форум на борт взять не получится, но вы можете в топике обсуждать наиболее интересные для сообщества штуки и мы их воткнем в скан, а на выходе дадим количество доменов, на которых было найдено то, что вас интересует, или даже список этих доменов в формате domain:alexa_rank, можем визуализировать, как например https://statoperator.com/research/responsive-web-viewport-meta-tag-usage/
В общем такой research топик для веб-мастеров. Есть некий эталон Alexa Top 1M в рамках которого можно взвесить чего там, сколько, где и с каким рейтингом. Естественно бесплатно. Единственная просьба: честно указать ссылку на https://statoperator.com если будете где-то публиковать данные.
От вас достаточно дать регулярку
А откуда берете топ 1кк?
Вижу только топ 500 http://www.alexa.com/topsites/global;19
https://support.alexa.com/hc/en-us/articles/200461990-Can-I-get-a-list-of-top-sites-from-an-API-
тут есть ссылка на http://s3.amazonaws.com/alexa-static/top-1m.csv.zip, там csv с 1м доменов.
Если не секрет, чем парсите? Сколько времени занимает?
Если не секрет, чем парсите? Сколько времени занимает?
Одна нода нашего краулера за час обходит и обрабатывает ~1M урлов, но там еще достаточно много дополнительной вычислительной работы, не относящейся к ретириву информации, так что спеки по железу вам вряд ли что-то скажут, но если интересно - 64 CPU 128 Гб RAM на ноду. Здесь можно найти некоторый срез по стате http://data.statoperator.com/about/