Yandex Direct + Google Analytics = как подружить?

12
Михаил Костриков
На сайте с 02.03.2007
Offline
101
#11

Забыл упомянуть, готовится перевод на русский язык книги "Advanced Web metrics with Google Analitycs"

Бюро переводов "К Вашим услугам" Доставка нотариальных переводов по всему миру https://perevodperevod.ru
M
На сайте с 17.11.2006
Offline
53
#12
MEK:
Забыл упомянуть, готовится перевод на русский язык книги "Advanced Web metrics with Google Analitycs"

а кто издает?

и известны какие то примерные хотя бы сроки выхода?

Михаил Костриков
На сайте с 02.03.2007
Offline
101
#13
Mishytka:
а кто издает?
и известны какие то примерные хотя бы сроки выхода?

Кто занимается переводом не знаю. На корейский уже перевели, следующие- чешский и русский.

yevgenyn
На сайте с 03.12.2008
Offline
27
#14
MEK:


А еще "неплохие книги" есть? :)

Вот рекомендую серьезный труд по теме Trust Rank

http://www.vldb.org/conf/2004/RS15P3.PDF

Заумно написано, может кто растолкует обычным языком.

Оказываю услуги продвижения Англоязычных и Русскоязычных сайтов в г.Ростов-на-Дону. www.rostov-wb.ru (www.rostov-wb.ru)
Михаил Костриков
На сайте с 02.03.2007
Offline
101
#15
yevgenyn:
Вот рекомендую серьезный труд по теме Trust Rank
http://www.vldb.org/conf/2004/RS15P3.PDF
Заумно написано, может кто растолкует обычным языком.

Ну, разве что детали :)

Один из авторов, Гектор Гарсия-Молина - научный руководитель Брина и Пейджа.

На русском языке это "Борьба со спамом при помощи алгоритма Trustrank", почитать можно на

http://www.websate.ru/poiskoviki/trustrank.html

Суть написанного проста:

Для 31 003 946 сайтов

Составили две выборки сайтов:

А) PageRank

- Сайты упорядочили по PageRank. Весь список разделили на 20 блоков, в каждом блоке суммарный PageRank составлял 5%, от общей суммы показателей PageRank.

Первый блок включал 86 сайтов с самыми высокими показателями, во втором блоке было 665, 20-ый состоял из 5 млн. сайтов

- Из каждого блока случайно отобрали по 50 сайтов.

- Отбросили домены фришного хостинга, одностраничные, несуществующие сайты, сайты на неизвестных восточно-азиатских языках, лишь незначительная часть контента была представлена на английском языке. Осталось 748 сайтов для определения показателя TrustRank

- Оценили вручную 748 сайтов.. Хорошим 613 сайтам присвоили TrustRank=1. На 135 сайтах были обнаружены различные виды спама. Этим сайтам присвоили TrustRank=0

- Провели расчеты: коэффициент передачи TrustRank классический, 0,85, всего 20 итераций. Получили TrustRank для всех 31млн+ сайтов.

- Посмотрели, в какие блоки попали оцененные вручную хорошие и плохие сайты.

Б) TrustRank

- Рассчитали "инверсный PageRank" - учитывали не входящие ссылки, а исходящие (аналогично традиционному алгоритму PageRank, но важность страницы зависит от количества исходящих ссылок, а не от входящих).

- Из этого списка взяли ТОП25000

- Удалили те, которые не значились в крупнейших веб-каталогах- осталось 7 900 сайтов.

- Оставили ТОП1250 сайтов

- Оставили только сайты правительственных учреждений и компаний. Осталось 178 сайтов

- Этим 178 сайтам присвоили TrustRank=1 или TrustRank=0, в зависимости от того, как ее оценил эксперт. Остальные 31млн+ сайтов получили TrustRank=1/2

- Провели расчеты, коэффициент передачи TrustRank классический, 0,85, всего 20 итераций.

Получили TrustRank для всех 31млн+ сайтов.

- Упорядочили список по TrustRank, разбили на блоки- блоки TrustRank включают такое же число сайтов, что и блоки PageRank

- Посмотрели, в какие блоки попали оцененные вручную хорошие и плохие сайты.

В) Пустой Trust.

Всем сайтам присвоили TrustRank=1/2, за исключением 1250 случайно выбранных сайтов с показателями 0 или 1.

Сравнили две методики. Вывод: возможно точно определять высококачественные хорошие страницы, не являющиеся спамом. TrustRank (в отличие PageRank), гарантирует, что первые позиции будут занимать только хорошие сайты.

Z
На сайте с 06.02.2007
Offline
61
#16
Mishytka:
а кто издает?
и известны какие то примерные хотя бы сроки выхода?

Диалектика, этой весной

yevgenyn
На сайте с 03.12.2008
Offline
27
#17
MEK:
Ну, разве что детали :)
Один из авторов, Гектор Гарсия-Молина - научный руководитель Брина и Пейджа.

На русском языке это "Борьба со спамом при помощи алгоритма Trustrank", почитать можно на
http://www.websate.ru/poiskoviki/trustrank.html

Большое спасибо МЕК за этот пост. Не подскажите, а какое практическое применение может быть у этого труда?

Михаил Костриков
На сайте с 02.03.2007
Offline
101
#18
yevgenyn:
какое практическое применение может быть у этого труда?

Хороший вопрос!

Давайте пофантазируем.

При расчете, описанном в статье, использовано приближение - сайт считается всего одной страницей, и из всех ссылок сайта на другой сайт учитывается только одна. ("Несколько миллиардов страниц было сгруппировано в 31 003 946 сайтов с помощью специального алгоритма, который является частью Alta Vista", "была сделана одна ссылка с сайта a на сайт b, тогда как на оригинальном веб-графе одна или более ссылок со страниц сайта а на страницы сайта b.")

А теперь еше раз: вручную оценив траст 178 сайтов, рассчитали траст для всех 31 млн с лишним сайтов!!!! И уверяют, что рассчитанный траст показывает, какой сайт хорош, а какой нехорош, позволяет отделить агнцев от козлищ.

Получить мнение асессоров и на его основе вычислить траст для всех сайтов - прямая задача.

Кто мешает решить обратную задачу?

Предположим, что ПС не показывает на первой странице выдачи сайты с низким трастом. Припишем сайтам из ТОП10 траст 1, остальным- 1/2. Можно взять самые ВЧ запросы, штук 100. Или 1000... А явным ГС приписать траст 0.

Не будем рассматривать все сайты рунета. В английском языке, кажется, около 2 млн слов (включая специальные термины), во всяком случае в толстом словаре около 200 000 слов. А в Пиджн Инглиш входит 2000 слов, и этого достаточно, чтобы вести беседу на бытовом уровне. Так что берем только 1/100 или даже 1/1000 часть известных сайтов - всего m сайтов.

Откуда-то надо взять список сайтов и ссылок. В работе, о которой мы говорим "использовалось полное множество страниц, найденных и проиндексированных поисковой системой Alta Vista." Можно свой паук сделать :) Мы же фантазируем.

А может быть, взять в качестве выборки по ... сайтов, появляющихся в выдаче для … самых ВЧ запросов? Добавим в список сайты, которые нас интересуют. Выясним, какие ссылки между ними есть.

Матрицу (1хm) умножаем на матрицу (mхm)- это матрица ссылок. Получили первую итерацию. После нескольких итераций знаем траст всех сайтов.

Конечно, матрица несколько великовата :) Методы, описанные в курсе линейной алгебры не помогут :( Но зато матрица почти пустая, редко где единичка стоит- все нолики больше. На Школе данных Яндекса читали лекции о работе с разреженными матрицами.

Только я с этой задачей не справлюсь :) А вот Игорь Станиславович Ашманов со товарищи запросто, они имеют некоторое представление о работе ПС и математике :). И bdbd. И Мираж. И создатели semrush.ru. И еще многие способны сделать нечто подобное, но получше. Думаю, что сделали, вот только списки траста не публикуют, жадины-говядины.

Между прочим, статья, про которую мы говорим, написана в 2004. С 2004 года много статей написано.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий