Если ПС- Гугл, то Вам поможет semrush.ru
Хороший вопрос!
Давайте пофантазируем.
При расчете, описанном в статье, использовано приближение - сайт считается всего одной страницей, и из всех ссылок сайта на другой сайт учитывается только одна. ("Несколько миллиардов страниц было сгруппировано в 31 003 946 сайтов с помощью специального алгоритма, который является частью Alta Vista", "была сделана одна ссылка с сайта a на сайт b, тогда как на оригинальном веб-графе одна или более ссылок со страниц сайта а на страницы сайта b.")
А теперь еше раз: вручную оценив траст 178 сайтов, рассчитали траст для всех 31 млн с лишним сайтов!!!! И уверяют, что рассчитанный траст показывает, какой сайт хорош, а какой нехорош, позволяет отделить агнцев от козлищ.
Получить мнение асессоров и на его основе вычислить траст для всех сайтов - прямая задача.
Кто мешает решить обратную задачу?
Предположим, что ПС не показывает на первой странице выдачи сайты с низким трастом. Припишем сайтам из ТОП10 траст 1, остальным- 1/2. Можно взять самые ВЧ запросы, штук 100. Или 1000... А явным ГС приписать траст 0.
Не будем рассматривать все сайты рунета. В английском языке, кажется, около 2 млн слов (включая специальные термины), во всяком случае в толстом словаре около 200 000 слов. А в Пиджн Инглиш входит 2000 слов, и этого достаточно, чтобы вести беседу на бытовом уровне. Так что берем только 1/100 или даже 1/1000 часть известных сайтов - всего m сайтов.
Откуда-то надо взять список сайтов и ссылок. В работе, о которой мы говорим "использовалось полное множество страниц, найденных и проиндексированных поисковой системой Alta Vista." Можно свой паук сделать :) Мы же фантазируем.
А может быть, взять в качестве выборки по ... сайтов, появляющихся в выдаче для … самых ВЧ запросов? Добавим в список сайты, которые нас интересуют. Выясним, какие ссылки между ними есть.
Матрицу (1хm) умножаем на матрицу (mхm)- это матрица ссылок. Получили первую итерацию. После нескольких итераций знаем траст всех сайтов.
Конечно, матрица несколько великовата :) Методы, описанные в курсе линейной алгебры не помогут :( Но зато матрица почти пустая, редко где единичка стоит- все нолики больше. На Школе данных Яндекса читали лекции о работе с разреженными матрицами.
Только я с этой задачей не справлюсь :) А вот Игорь Станиславович Ашманов со товарищи запросто, они имеют некоторое представление о работе ПС и математике :). И bdbd. И Мираж. И создатели semrush.ru. И еще многие способны сделать нечто подобное, но получше. Думаю, что сделали, вот только списки траста не публикуют, жадины-говядины.
Между прочим, статья, про которую мы говорим, написана в 2004. С 2004 года много статей написано.
А Яковлев А Чупрун, Контекстная реклама, Санкт-Петербург, БХВ-Петербург, 2009
Купить легко можно
Ну, разве что детали :)
Один из авторов, Гектор Гарсия-Молина - научный руководитель Брина и Пейджа.
На русском языке это "Борьба со спамом при помощи алгоритма Trustrank", почитать можно на
http://www.websate.ru/poiskoviki/trustrank.html
Суть написанного проста:
Для 31 003 946 сайтов
Составили две выборки сайтов:
А) PageRank
- Сайты упорядочили по PageRank. Весь список разделили на 20 блоков, в каждом блоке суммарный PageRank составлял 5%, от общей суммы показателей PageRank.
Первый блок включал 86 сайтов с самыми высокими показателями, во втором блоке было 665, 20-ый состоял из 5 млн. сайтов
- Из каждого блока случайно отобрали по 50 сайтов.
- Отбросили домены фришного хостинга, одностраничные, несуществующие сайты, сайты на неизвестных восточно-азиатских языках, лишь незначительная часть контента была представлена на английском языке. Осталось 748 сайтов для определения показателя TrustRank
- Оценили вручную 748 сайтов.. Хорошим 613 сайтам присвоили TrustRank=1. На 135 сайтах были обнаружены различные виды спама. Этим сайтам присвоили TrustRank=0
- Провели расчеты: коэффициент передачи TrustRank классический, 0,85, всего 20 итераций. Получили TrustRank для всех 31млн+ сайтов.
- Посмотрели, в какие блоки попали оцененные вручную хорошие и плохие сайты.
Б) TrustRank
- Рассчитали "инверсный PageRank" - учитывали не входящие ссылки, а исходящие (аналогично традиционному алгоритму PageRank, но важность страницы зависит от количества исходящих ссылок, а не от входящих).
- Из этого списка взяли ТОП25000
- Удалили те, которые не значились в крупнейших веб-каталогах- осталось 7 900 сайтов.
- Оставили ТОП1250 сайтов
- Оставили только сайты правительственных учреждений и компаний. Осталось 178 сайтов
- Этим 178 сайтам присвоили TrustRank=1 или TrustRank=0, в зависимости от того, как ее оценил эксперт. Остальные 31млн+ сайтов получили TrustRank=1/2
- Провели расчеты, коэффициент передачи TrustRank классический, 0,85, всего 20 итераций.
Получили TrustRank для всех 31млн+ сайтов.
- Упорядочили список по TrustRank, разбили на блоки- блоки TrustRank включают такое же число сайтов, что и блоки PageRank
В) Пустой Trust.
Всем сайтам присвоили TrustRank=1/2, за исключением 1250 случайно выбранных сайтов с показателями 0 или 1.
Сравнили две методики. Вывод: возможно точно определять высококачественные хорошие страницы, не являющиеся спамом. TrustRank (в отличие PageRank), гарантирует, что первые позиции будут занимать только хорошие сайты.
Так не всегда было :)
Расходы на рекламу 15 российских кампаний с лучшей репутацией. Таблица приняла следующий вид (в тыс. долл., по данным Russian Public Relations Group):
РАО "Газпром"-93
Ликеро-водочный завод "Кристалл"-254
Кондитерская фабрика "Красный Октябрь"-1252
НК "ЛУКойл"-750
Инкомбанк-3423
Пивзавод "Балтика"-1893
Онэксимбанк-519
Сбербанк РФ-2213
Лианозовский молочный комбинат-183
РАО "ЕЭС России"-21
"Довгань"-5317
Кондитерская фабрика "Рот Фронт"-547
"Аэрофлот"-6742
"Московская сотовая связь"-4966
"Менатеп"-2874
опубликовано в журнале "Эксперт" (1998, № 16)
Кто занимается переводом не знаю. На корейский уже перевели, следующие- чешский и русский.
Забыл упомянуть, готовится перевод на русский язык книги "Advanced Web metrics with Google Analitycs"
Гугл аналитика по умолчанию знает следующие поисковики:
Google Yahoo MSN Lycos Ask Altavista Netscape CNN Looksmart About Mamma Alltheweb Gigablast Voila Virgilio Live Baidu Alice Yandex Najdi AOL Club-internet Mama Seznam Search Wp Onet Netsprint Google.interia Szukacz Yam Pchome
http://www.google.com/support/googleanalytics/bin/answer.py?hl=en&answer=77613
Добавить новый поисковик всегда можно. «Расщепить на кусочки» уже известный ГА поисковик чуть сложнее. Важен порядок, в котором ГА опознает поисковики. Добавление переменой addOrganic в код дописывает новый поисковик в конец списка. Предлагаемый Вами список
pageTracker._addOrganic("google.es","q");
….
pageTracker._addOrganic("google.pl","q");
не будет работать, так как ГА уже опознала все google.* домены как “google”, и приписыванием новых строк уже ничего не изменишь.
Сперва надо очистить список поиcковиков, дописав в код строчку
pageTracker._clearOrganic()
а уже потом определять новые домены.
Таким образом, Ваш пример должен выглядеть так:
Но после этого необходимо перечислить еще и все остальные поисковики, про которые ГА «забыла» (или забыл? :)). Поэтому я и не делал так, написанное выше- книжные знания. Буду рад узнать мнение специалистов.
Для интересующихся (неполный список):
// Default GA
pageTracker._addOrganic("about","terms");
pageTracker._addOrganic("alice","qs");
pageTracker._addOrganic("alltheweb","q");
pageTracker._addOrganic("altavista","q");
pageTracker._addOrganic("aol","query");
pageTracker._addOrganic("aol","encquery");
pageTracker._addOrganic("ask","q");
pageTracker._addOrganic("baidu","wd");
pageTracker._addOrganic("cnn","query");
pageTracker._addOrganic("gigablast","q");
pageTracker._addOrganic("google","q");
pageTracker._addOrganic("live.com","q");
pageTracker._addOrganic("looksmart","qt");
pageTracker._addOrganic("lycos","query");
pageTracker._addOrganic("mamma","query");
pageTracker._addOrganic("msn","q");
pageTracker._addOrganic("najdi","q");
pageTracker._addOrganic("netscape","s");
pageTracker._addOrganic("search","q");
pageTracker._addOrganic("seznam","q");
pageTracker._addOrganic("szukacz","q");
pageTracker._addOrganic("virgilio.it","qs");
pageTracker._addOrganic("voila.fr","kw");
pageTracker._addOrganic("yahoo","p");
pageTracker._addOrganic("yandex.ru","text");
Еще:
Строка
pageTracker._addOrganic("images.google", "prev");
должна быть расположен ДО строки pageTracker._initData();
Вот так:
pageTracker._initData();
PS. Сейчас подумал, что можно сделать так:
Мои магазины работают только по России, и в Гугле интересен в первую очередь google.ru, ну может быть еще google.ua. Все остальное- «прочий Гугл»
Названия домена поисковика и метку ГА хранит в массивах:
_uOsr[..]="search_engine_name";
_uOkw[..]="query_variable";
Наверное, первым идет Гугл :) На сегодняшний день длины массивов - 32 элемента.
Можно изменить первый элемент, поставив туда google.ru, а потом приписать строку, которая будет опознавать «прочий гугл».
Попозже попробую.
Но не надо забывать, что меняя код, Вы это делаете на свой страх и риск, ГА может в любой момент изменить сам код или способ его обработки. Так что, как минимум, надо следить за изменениями ГА: http://www.google.com/support/analytics/bin/answer.py?hl=en&answer=69588
А еще больше можно? :) Почему то мне кажется, что на мой сайт не придут из поисковика araby.com :)
Собственно, список поисковиков нужен не столько чтобы отследить единичные заходы с экзотических поисковиков, а чтобы убрать кракозябры, которые появляются в отчетах при переходах с неизвестного ГА поисковику. "Поскольку они не UTF-8 – поисковые запросы с них приходят в ломаной кодировке. Попробуйте заставить Аналитикс «понимать» русские поисковики. Вот ссылка на то, как это делается: http://www.google.com/support/google...u&answer=57046"
Для одного из моих сайтов частоты заходов с разных поисковиков:
yandex 70,1010%
google 20,7947%
mail.ru 7,1671%
rambler.ru 0,5851%
nigma.ru 0,4259%
msn 0,2410%
live 0,2272%
search 0,1874%
aport.ru 0,1015%
ukr.net 0,0836%
poisk.ru 0,0186%
gogo.ru 0,0146%
tut.by 0,0121%
gde.ru 0,0095%
yahoo 0,0084%
aol 0,0040%
ask 0,0040%
liveinternet.ru 0,0033%
webalta.ru 0,0033%
altavista 0,0026%
sesam 0,0018%
online.ua 0,0011%
alice 0,0005%
all.by 0,0004%
km.ru 0,0004%
netscape 0,0004%
quintura.ru 0,0004%
seznam 0,0003%
Замечание, что надо отдельно предусмотреть поиск по картинкам верно, спасибо. Но еще надо будет настроить фильтр.
http://www.semrush.com/
• Ключевые слова, по которым анализируемый домен находится в ТОП 20 поисковой выдачи Google
• Ключевые слова, по которым анализируемый домен размещает рекламу в Google AdWords.
• Домены, конкурирующие с анализируемым доменом в ТОП 20 поисковой выдачи Google по тем или иным ключевым словам.
• Домены, конкурирующие с анализируемым доменом в Google AdWords по тем или иным ключевым словам.
• Потенциальные продавцы трафика для анализируемого домена.
• Потенциальные покупатели трафика для анализируемого домена.
http://seobudget.ru/about/
сервис оценки стоимости поискового продвижения по заданному списку запросов
http://ugs-generator.ru/
программа быстрой генерации сайтов в виде HTML – страниц из одного длинного текста
http://www.woopra.com/
Система аналитики
http://zenbroker.ru/
Каталог SEO-документов
Это по памяти, покопаюсь- пришлю еще.
В свое время очень был рад, наткнувшись на "Список Миража".