- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Предлагается вниманию свежая база русских поисковых запросов.
В базе 88 миллионов уникальных почищенных кеев со статой, собранных с открытых статистик сервиса LiveInternet.ru.
Актуальность:
декабрь 2009г.
Исходные данные:
обработано сайтов: 162 589 (сайты с ненулевой статой)
собрано ключевых слов: 133 714 170 (сто тридцать три млн)
вес исходников: ~7Gb (в UTF-8)
Было выкошено:
1. 1 889 061 запросов, состоящих или содержавших в себе url: 272 tld домена, в том числе с ошибками и игрой с раскладкой. Нестандартный пример:
2. 251 394 запросов с арабской вязью, иероглифами, битой кодировкой и псевдографикой (более 4 тысяч различных символов):
3. 17 804 запросов с поисковыми операторами (вообще их больше, часть попала под другие фильтры):
Кроме этого:
Отдельно отобрано 3 023 689 запросов, включающих в себя символы украинского алфавита:
После наложения всех фильтров осталось 109 миллионов кеев, которые были залиты в базу и агрегированы. В итоге получена 88 миллионная база уникальных поисковых запросов + месячная (не относительная, а полная!) статистика за декабрь.
Так, например, в базе более 3 миллионов запросов, со статистикой >100 в месяц. 80% базы - запросы, состоящие из 2-5 слов. Полная картина выглядит так:
Запросы от 20 слов чуть более чем полностью состояли из мусора и были выкошены (всего 72 732 запроса).
Для того, чтобы определить сезонный/новостной запрос от стабильного в третьей колонке находится статистика за ноябрь. Пара примеров:
И обратный вариант:
Формат:
Формат файлов - txt (csv), кодировка win-1251. В распакованном виде база занимает порядка 3Gb. Для удобства ключи разбиты на 9 файлов, примерно по 10 млн запросов в каждом. Отдельный файл с суффиксом ua содержит >2 миллионов запросов на української мови.
База выгодно отличается от других источников (например, «вордстата» или «прямого эфира») полным отсутствием цензуры. В ней содержатся запросы из самых разных ниш, которые будут интересны как дорвейщикам, так и оптимизаторам.
Пример выборки по запросу «собчак» (9 640 результатов):
ksusha (этеншен! ненормативная лексика).
Стоимость:
На данный момент стоимость базы равна 90 wmz. После оплаты вы получаете ссылку и самостоятельно скачиваете архив (~450Mb).
Индивидуально можно обсудить создание различных выборок в произвольном формате. На цену, конечно, влияет.
Контакты:
icq: 335 - 803
sabotage.name
ps линки рабочие
возму за 50
Первый firacet. Осталось два места, для тесту, так сказать.
Базу купил, оперативно. Как скачаю и посмотрю что внутри - отпишусь о качестве.
Хотя что можно ожидать от ЛИ. Там обычные живые запросы и ничего большего.
Готов взять за 50. Стукнулся в ICQ
Dim0, не вижу. Повторись.
upd вижу :)
Возьму за 50$ если еще есть
Поправили, каемсо
semenov, спасибо. Вы не могли бы поправить свой пост?
hodder предварительно 3.
хм... Была бы какая-то оболочка (например, как в Базе Пастухова), взял бы сразу такую штуку.
Georgyi, нужен инструмент для создания выборки?