- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов

VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Забыл упомянуть, готовится перевод на русский язык книги "Advanced Web metrics with Google Analitycs"
Забыл упомянуть, готовится перевод на русский язык книги "Advanced Web metrics with Google Analitycs"
а кто издает?
и известны какие то примерные хотя бы сроки выхода?
а кто издает?
и известны какие то примерные хотя бы сроки выхода?
Кто занимается переводом не знаю. На корейский уже перевели, следующие- чешский и русский.
А еще "неплохие книги" есть? :)
Вот рекомендую серьезный труд по теме Trust Rank
http://www.vldb.org/conf/2004/RS15P3.PDF
Заумно написано, может кто растолкует обычным языком.
Вот рекомендую серьезный труд по теме Trust Rank
http://www.vldb.org/conf/2004/RS15P3.PDF
Заумно написано, может кто растолкует обычным языком.
Ну, разве что детали :)
Один из авторов, Гектор Гарсия-Молина - научный руководитель Брина и Пейджа.
На русском языке это "Борьба со спамом при помощи алгоритма Trustrank", почитать можно на
http://www.websate.ru/poiskoviki/trustrank.html
Суть написанного проста:
Для 31 003 946 сайтов
Составили две выборки сайтов:
А) PageRank
- Сайты упорядочили по PageRank. Весь список разделили на 20 блоков, в каждом блоке суммарный PageRank составлял 5%, от общей суммы показателей PageRank.
Первый блок включал 86 сайтов с самыми высокими показателями, во втором блоке было 665, 20-ый состоял из 5 млн. сайтов
- Из каждого блока случайно отобрали по 50 сайтов.
- Отбросили домены фришного хостинга, одностраничные, несуществующие сайты, сайты на неизвестных восточно-азиатских языках, лишь незначительная часть контента была представлена на английском языке. Осталось 748 сайтов для определения показателя TrustRank
- Оценили вручную 748 сайтов.. Хорошим 613 сайтам присвоили TrustRank=1. На 135 сайтах были обнаружены различные виды спама. Этим сайтам присвоили TrustRank=0
- Провели расчеты: коэффициент передачи TrustRank классический, 0,85, всего 20 итераций. Получили TrustRank для всех 31млн+ сайтов.
- Посмотрели, в какие блоки попали оцененные вручную хорошие и плохие сайты.
Б) TrustRank
- Рассчитали "инверсный PageRank" - учитывали не входящие ссылки, а исходящие (аналогично традиционному алгоритму PageRank, но важность страницы зависит от количества исходящих ссылок, а не от входящих).
- Из этого списка взяли ТОП25000
- Удалили те, которые не значились в крупнейших веб-каталогах- осталось 7 900 сайтов.
- Оставили ТОП1250 сайтов
- Оставили только сайты правительственных учреждений и компаний. Осталось 178 сайтов
- Этим 178 сайтам присвоили TrustRank=1 или TrustRank=0, в зависимости от того, как ее оценил эксперт. Остальные 31млн+ сайтов получили TrustRank=1/2
- Провели расчеты, коэффициент передачи TrustRank классический, 0,85, всего 20 итераций.
Получили TrustRank для всех 31млн+ сайтов.
- Упорядочили список по TrustRank, разбили на блоки- блоки TrustRank включают такое же число сайтов, что и блоки PageRank
- Посмотрели, в какие блоки попали оцененные вручную хорошие и плохие сайты.
В) Пустой Trust.
Всем сайтам присвоили TrustRank=1/2, за исключением 1250 случайно выбранных сайтов с показателями 0 или 1.
Сравнили две методики. Вывод: возможно точно определять высококачественные хорошие страницы, не являющиеся спамом. TrustRank (в отличие PageRank), гарантирует, что первые позиции будут занимать только хорошие сайты.
а кто издает?
и известны какие то примерные хотя бы сроки выхода?
Диалектика, этой весной
Ну, разве что детали :)
Один из авторов, Гектор Гарсия-Молина - научный руководитель Брина и Пейджа.
На русском языке это "Борьба со спамом при помощи алгоритма Trustrank", почитать можно на
http://www.websate.ru/poiskoviki/trustrank.html
Большое спасибо МЕК за этот пост. Не подскажите, а какое практическое применение может быть у этого труда?
какое практическое применение может быть у этого труда?
Хороший вопрос!
Давайте пофантазируем.
При расчете, описанном в статье, использовано приближение - сайт считается всего одной страницей, и из всех ссылок сайта на другой сайт учитывается только одна. ("Несколько миллиардов страниц было сгруппировано в 31 003 946 сайтов с помощью специального алгоритма, который является частью Alta Vista", "была сделана одна ссылка с сайта a на сайт b, тогда как на оригинальном веб-графе одна или более ссылок со страниц сайта а на страницы сайта b.")
А теперь еше раз: вручную оценив траст 178 сайтов, рассчитали траст для всех 31 млн с лишним сайтов!!!! И уверяют, что рассчитанный траст показывает, какой сайт хорош, а какой нехорош, позволяет отделить агнцев от козлищ.
Получить мнение асессоров и на его основе вычислить траст для всех сайтов - прямая задача.
Кто мешает решить обратную задачу?
Предположим, что ПС не показывает на первой странице выдачи сайты с низким трастом. Припишем сайтам из ТОП10 траст 1, остальным- 1/2. Можно взять самые ВЧ запросы, штук 100. Или 1000... А явным ГС приписать траст 0.
Не будем рассматривать все сайты рунета. В английском языке, кажется, около 2 млн слов (включая специальные термины), во всяком случае в толстом словаре около 200 000 слов. А в Пиджн Инглиш входит 2000 слов, и этого достаточно, чтобы вести беседу на бытовом уровне. Так что берем только 1/100 или даже 1/1000 часть известных сайтов - всего m сайтов.
Откуда-то надо взять список сайтов и ссылок. В работе, о которой мы говорим "использовалось полное множество страниц, найденных и проиндексированных поисковой системой Alta Vista." Можно свой паук сделать :) Мы же фантазируем.
А может быть, взять в качестве выборки по ... сайтов, появляющихся в выдаче для … самых ВЧ запросов? Добавим в список сайты, которые нас интересуют. Выясним, какие ссылки между ними есть.
Матрицу (1хm) умножаем на матрицу (mхm)- это матрица ссылок. Получили первую итерацию. После нескольких итераций знаем траст всех сайтов.
Конечно, матрица несколько великовата :) Методы, описанные в курсе линейной алгебры не помогут :( Но зато матрица почти пустая, редко где единичка стоит- все нолики больше. На Школе данных Яндекса читали лекции о работе с разреженными матрицами.
Только я с этой задачей не справлюсь :) А вот Игорь Станиславович Ашманов со товарищи запросто, они имеют некоторое представление о работе ПС и математике :). И bdbd. И Мираж. И создатели semrush.ru. И еще многие способны сделать нечто подобное, но получше. Думаю, что сделали, вот только списки траста не публикуют, жадины-говядины.
Между прочим, статья, про которую мы говорим, написана в 2004. С 2004 года много статей написано.