Михаил Костриков

Михаил Костриков
Рейтинг
101
Регистрация
02.03.2007
Должность
Руководитель
Название компании
Бюро переводов "К Вашим услугам"
Физфак МГУ выпуск 1976, работа в Дубне, ИФВЭ (Серпуховский ускоритель), ЦЕРН (Женева, ускоритель), Португалия (Университет Лиссабона) В настоящее время- создал бюро переводов
Alksprin:
поисковые запросы по которым выходит мой сайт в поисковых системах?

Если ПС- Гугл, то Вам поможет semrush.ru

yevgenyn:
какое практическое применение может быть у этого труда?

Хороший вопрос!

Давайте пофантазируем.

При расчете, описанном в статье, использовано приближение - сайт считается всего одной страницей, и из всех ссылок сайта на другой сайт учитывается только одна. ("Несколько миллиардов страниц было сгруппировано в 31 003 946 сайтов с помощью специального алгоритма, который является частью Alta Vista", "была сделана одна ссылка с сайта a на сайт b, тогда как на оригинальном веб-графе одна или более ссылок со страниц сайта а на страницы сайта b.")

А теперь еше раз: вручную оценив траст 178 сайтов, рассчитали траст для всех 31 млн с лишним сайтов!!!! И уверяют, что рассчитанный траст показывает, какой сайт хорош, а какой нехорош, позволяет отделить агнцев от козлищ.

Получить мнение асессоров и на его основе вычислить траст для всех сайтов - прямая задача.

Кто мешает решить обратную задачу?

Предположим, что ПС не показывает на первой странице выдачи сайты с низким трастом. Припишем сайтам из ТОП10 траст 1, остальным- 1/2. Можно взять самые ВЧ запросы, штук 100. Или 1000... А явным ГС приписать траст 0.

Не будем рассматривать все сайты рунета. В английском языке, кажется, около 2 млн слов (включая специальные термины), во всяком случае в толстом словаре около 200 000 слов. А в Пиджн Инглиш входит 2000 слов, и этого достаточно, чтобы вести беседу на бытовом уровне. Так что берем только 1/100 или даже 1/1000 часть известных сайтов - всего m сайтов.

Откуда-то надо взять список сайтов и ссылок. В работе, о которой мы говорим "использовалось полное множество страниц, найденных и проиндексированных поисковой системой Alta Vista." Можно свой паук сделать :) Мы же фантазируем.

А может быть, взять в качестве выборки по ... сайтов, появляющихся в выдаче для … самых ВЧ запросов? Добавим в список сайты, которые нас интересуют. Выясним, какие ссылки между ними есть.

Матрицу (1хm) умножаем на матрицу (mхm)- это матрица ссылок. Получили первую итерацию. После нескольких итераций знаем траст всех сайтов.

Конечно, матрица несколько великовата :) Методы, описанные в курсе линейной алгебры не помогут :( Но зато матрица почти пустая, редко где единичка стоит- все нолики больше. На Школе данных Яндекса читали лекции о работе с разреженными матрицами.

Только я с этой задачей не справлюсь :) А вот Игорь Станиславович Ашманов со товарищи запросто, они имеют некоторое представление о работе ПС и математике :). И bdbd. И Мираж. И создатели semrush.ru. И еще многие способны сделать нечто подобное, но получше. Думаю, что сделали, вот только списки траста не публикуют, жадины-говядины.

Между прочим, статья, про которую мы говорим, написана в 2004. С 2004 года много статей написано.

consumer:
что вы порекомендуете почитать, чтобы быстрее и доскональней разобраться в AdWords в теории?

А Яковлев А Чупрун, Контекстная реклама, Санкт-Петербург, БХВ-Петербург, 2009

Купить легко можно

yevgenyn:
Вот рекомендую серьезный труд по теме Trust Rank
http://www.vldb.org/conf/2004/RS15P3.PDF
Заумно написано, может кто растолкует обычным языком.

Ну, разве что детали :)

Один из авторов, Гектор Гарсия-Молина - научный руководитель Брина и Пейджа.

На русском языке это "Борьба со спамом при помощи алгоритма Trustrank", почитать можно на

http://www.websate.ru/poiskoviki/trustrank.html

Суть написанного проста:

Для 31 003 946 сайтов

Составили две выборки сайтов:

А) PageRank

- Сайты упорядочили по PageRank. Весь список разделили на 20 блоков, в каждом блоке суммарный PageRank составлял 5%, от общей суммы показателей PageRank.

Первый блок включал 86 сайтов с самыми высокими показателями, во втором блоке было 665, 20-ый состоял из 5 млн. сайтов

- Из каждого блока случайно отобрали по 50 сайтов.

- Отбросили домены фришного хостинга, одностраничные, несуществующие сайты, сайты на неизвестных восточно-азиатских языках, лишь незначительная часть контента была представлена на английском языке. Осталось 748 сайтов для определения показателя TrustRank

- Оценили вручную 748 сайтов.. Хорошим 613 сайтам присвоили TrustRank=1. На 135 сайтах были обнаружены различные виды спама. Этим сайтам присвоили TrustRank=0

- Провели расчеты: коэффициент передачи TrustRank классический, 0,85, всего 20 итераций. Получили TrustRank для всех 31млн+ сайтов.

- Посмотрели, в какие блоки попали оцененные вручную хорошие и плохие сайты.

Б) TrustRank

- Рассчитали "инверсный PageRank" - учитывали не входящие ссылки, а исходящие (аналогично традиционному алгоритму PageRank, но важность страницы зависит от количества исходящих ссылок, а не от входящих).

- Из этого списка взяли ТОП25000

- Удалили те, которые не значились в крупнейших веб-каталогах- осталось 7 900 сайтов.

- Оставили ТОП1250 сайтов

- Оставили только сайты правительственных учреждений и компаний. Осталось 178 сайтов

- Этим 178 сайтам присвоили TrustRank=1 или TrustRank=0, в зависимости от того, как ее оценил эксперт. Остальные 31млн+ сайтов получили TrustRank=1/2

- Провели расчеты, коэффициент передачи TrustRank классический, 0,85, всего 20 итераций.

Получили TrustRank для всех 31млн+ сайтов.

- Упорядочили список по TrustRank, разбили на блоки- блоки TrustRank включают такое же число сайтов, что и блоки PageRank

- Посмотрели, в какие блоки попали оцененные вручную хорошие и плохие сайты.

В) Пустой Trust.

Всем сайтам присвоили TrustRank=1/2, за исключением 1250 случайно выбранных сайтов с показателями 0 или 1.

Сравнили две методики. Вывод: возможно точно определять высококачественные хорошие страницы, не являющиеся спамом. TrustRank (в отличие PageRank), гарантирует, что первые позиции будут занимать только хорошие сайты.

Rakhaev:
есть такая компания Газпром. Она тратит деньги на рекламу. За 2005 или 2006 год (нужно смотреть аудированный отчёт всей группы) потратила одиннадцатизначную (!) сумму в рублях

Так не всегда было :)

Расходы на рекламу 15 российских кампаний с лучшей репутацией. Таблица приняла следующий вид (в тыс. долл., по данным Russian Public Relations Group):

РАО "Газпром"-93

Ликеро-водочный завод "Кристалл"-254

Кондитерская фабрика "Красный Октябрь"-1252

НК "ЛУКойл"-750

Инкомбанк-3423

Пивзавод "Балтика"-1893

Онэксимбанк-519

Сбербанк РФ-2213

Лианозовский молочный комбинат-183

РАО "ЕЭС России"-21

"Довгань"-5317

Кондитерская фабрика "Рот Фронт"-547

"Аэрофлот"-6742

"Московская сотовая связь"-4966

"Менатеп"-2874

опубликовано в журнале "Эксперт" (1998, № 16)

Mishytka:
а кто издает?
и известны какие то примерные хотя бы сроки выхода?

Кто занимается переводом не знаю. На корейский уже перевели, следующие- чешский и русский.

Забыл упомянуть, готовится перевод на русский язык книги "Advanced Web metrics with Google Analitycs"

AntonR:
легче удалить ненужное, чем самому дописывать нужное

Гугл аналитика по умолчанию знает следующие поисковики:

Google Yahoo MSN Lycos Ask Altavista Netscape CNN Looksmart About Mamma Alltheweb Gigablast Voila Virgilio Live Baidu Alice Yandex Najdi AOL Club-internet Mama Seznam Search Wp Onet Netsprint Google.interia Szukacz Yam Pchome

http://www.google.com/support/googleanalytics/bin/answer.py?hl=en&answer=77613

Добавить новый поисковик всегда можно. «Расщепить на кусочки» уже известный ГА поисковик чуть сложнее. Важен порядок, в котором ГА опознает поисковики. Добавление переменой addOrganic в код дописывает новый поисковик в конец списка. Предлагаемый Вами список

pageTracker._addOrganic("google.es","q");

….

pageTracker._addOrganic("google.pl","q");

не будет работать, так как ГА уже опознала все google.* домены как “google”, и приписыванием новых строк уже ничего не изменишь.

Сперва надо очистить список поиcковиков, дописав в код строчку

pageTracker._clearOrganic()

а уже потом определять новые домены.

Таким образом, Ваш пример должен выглядеть так:

pageTracker._clearOrganic()

pageTracker._addOrganic("google.es","q");

….

pageTracker._addOrganic("google.pl","q");

Но после этого необходимо перечислить еще и все остальные поисковики, про которые ГА «забыла» (или забыл? :)). Поэтому я и не делал так, написанное выше- книжные знания. Буду рад узнать мнение специалистов.

Для интересующихся (неполный список):

// Default GA

pageTracker._addOrganic("about","terms");

pageTracker._addOrganic("alice","qs");

pageTracker._addOrganic("alltheweb","q");

pageTracker._addOrganic("altavista","q");

pageTracker._addOrganic("aol","query");

pageTracker._addOrganic("aol","encquery");

pageTracker._addOrganic("ask","q");

pageTracker._addOrganic("baidu","wd");

pageTracker._addOrganic("cnn","query");

pageTracker._addOrganic("gigablast","q");

pageTracker._addOrganic("google","q");

pageTracker._addOrganic("live.com","q");

pageTracker._addOrganic("looksmart","qt");

pageTracker._addOrganic("lycos","query");

pageTracker._addOrganic("mamma","query");

pageTracker._addOrganic("msn","q");

pageTracker._addOrganic("najdi","q");

pageTracker._addOrganic("netscape","s");

pageTracker._addOrganic("search","q");

pageTracker._addOrganic("seznam","q");

pageTracker._addOrganic("szukacz","q");

pageTracker._addOrganic("virgilio.it","qs");

pageTracker._addOrganic("voila.fr","kw");

pageTracker._addOrganic("yahoo","p");

pageTracker._addOrganic("yandex.ru","text");

Еще:

Строка

pageTracker._addOrganic("images.google", "prev");

должна быть расположен ДО строки pageTracker._initData();

Вот так:

pageTracker._addOrganic("images.google", "prev");

pageTracker._initData();

PS. Сейчас подумал, что можно сделать так:

Мои магазины работают только по России, и в Гугле интересен в первую очередь google.ru, ну может быть еще google.ua. Все остальное- «прочий Гугл»

Названия домена поисковика и метку ГА хранит в массивах:

_uOsr[..]="search_engine_name";

_uOkw[..]="query_variable";

Наверное, первым идет Гугл :) На сегодняшний день длины массивов - 32 элемента.

Можно изменить первый элемент, поставив туда google.ru, а потом приписать строку, которая будет опознавать «прочий гугл».

Попозже попробую.

Но не надо забывать, что меняя код, Вы это делаете на свой страх и риск, ГА может в любой момент изменить сам код или способ его обработки. Так что, как минимум, надо следить за изменениями ГА: http://www.google.com/support/analytics/bin/answer.py?hl=en&answer=69588

AntonR:
Вот еще большее расширение:

А еще больше можно? :) Почему то мне кажется, что на мой сайт не придут из поисковика araby.com :)

Собственно, список поисковиков нужен не столько чтобы отследить единичные заходы с экзотических поисковиков, а чтобы убрать кракозябры, которые появляются в отчетах при переходах с неизвестного ГА поисковику. "Поскольку они не UTF-8 – поисковые запросы с них приходят в ломаной кодировке. Попробуйте заставить Аналитикс «понимать» русские поисковики. Вот ссылка на то, как это делается: http://www.google.com/support/google...u&answer=57046"

Для одного из моих сайтов частоты заходов с разных поисковиков:

yandex 70,1010%

google 20,7947%

mail.ru 7,1671%

rambler.ru 0,5851%

nigma.ru 0,4259%

msn 0,2410%

live 0,2272%

search 0,1874%

aport.ru 0,1015%

ukr.net 0,0836%

poisk.ru 0,0186%

gogo.ru 0,0146%

tut.by 0,0121%

gde.ru 0,0095%

yahoo 0,0084%

aol 0,0040%

ask 0,0040%

liveinternet.ru 0,0033%

webalta.ru 0,0033%

altavista 0,0026%

sesam 0,0018%

online.ua 0,0011%

alice 0,0005%

all.by 0,0004%

km.ru 0,0004%

netscape 0,0004%

quintura.ru 0,0004%

seznam 0,0003%

Замечание, что надо отдельно предусмотреть поиск по картинкам верно, спасибо. Но еще надо будет настроить фильтр.

http://www.semrush.com/

• Ключевые слова, по которым анализируемый домен находится в ТОП 20 поисковой выдачи Google

• Ключевые слова, по которым анализируемый домен размещает рекламу в Google AdWords.

• Домены, конкурирующие с анализируемым доменом в ТОП 20 поисковой выдачи Google по тем или иным ключевым словам.

• Домены, конкурирующие с анализируемым доменом в Google AdWords по тем или иным ключевым словам.

• Потенциальные продавцы трафика для анализируемого домена.

• Потенциальные покупатели трафика для анализируемого домена.

http://seobudget.ru/about/

сервис оценки стоимости поискового продвижения по заданному списку запросов

http://ugs-generator.ru/

программа быстрой генерации сайтов в виде HTML – страниц из одного длинного текста

http://www.woopra.com/

Система аналитики

http://zenbroker.ru/

Каталог SEO-документов

Это по памяти, покопаюсь- пришлю еще.

В свое время очень был рад, наткнувшись на "Список Миража".

Всего: 405