Да, продолжать можно очень долго -). Мне известно что Гугл "протаскивает" в ранжирование по нескольку мегабайт данных на каждого пользователя.
Ну, например, есть гипотеза, что ссылки со страниц "верхнего" индекса работают лучше, чем с "мусорного".
Есть еще гипотезы, которые не буду пока озвучивать.
А проблема с положительной обратной связью? Просто я немного в курсе как сложно иногда с ней бороться и к каким результатам она может привести.
Поисковик, по идее, не должен поддерживать прямую зависимость между количеством трафика на документ с серпа и перемещением документа в вышестоящий индекс. Так как обратная положительная связь будет "прибивать страницы гвоздями" в верхний индекс.
Если речь идет о трафике НЕ с Гугла, то да, согласен, логично. Более того, на месте Гугла я бы вообще не учитывал трафик с него же при принятии решения о помещении страницы в выше- и ниже-стоящий индекс.
Вообще, чем больше думаю на эту тему, тем больше вижу практических вариантов использования. -)
Понятно что старая и заезженная -) Эти запросы известны давным давно.
Я предлагаю посмотреть на ситуацию в разрезе патента. Очевидно, что раздельный поиск по разным частям базы необходим Гуглу для увеличения быстродействия. Зачем искать по всей базе, если среди выборки из авторитетных страниц и так хватает документов.
Соответственно меня сейчас интересуют критерии "пограничности" запросов. От каких параметров запроса зависит то будет ли Гугл выводить результаты откуда-нибудь кроме основного индекса?
В теории это должно зависеть от:
- количества найденых документов
- частотности запроса
- принадлежности запроса к той или иной категории, по которым у Гугла есть отдельный индекс.
Может быть кто-нибудь исследовал этот вопрос?
А то что на страницы из основного индекса идет большая часть трафика на сайт действительно так? Есть ли какие-то исследования подтверждающие или опровергающие это?
Иногда надо читать что находиться по ссылке и думать своей головой.
Во первых там перевод западного материала, о чем написано.
Во вторых как работает машинное обучение (знакомо такое слово?). Что такое признаки, как они используются, и что получается на выходе?
В третьих полезно иногда гуглить, что б не выглядеть недоученным студентом-выскочкой.
Да, я выше уже писал, что утилита смотрит только на имя домена. Я этого не заметил поначчалу, т.к. решил что раз утилита принадлежит тому же автору что и список признаков, то и чекает она не только по домену.
Мне так стыдно -)
На блог отсюда пришло, кстати, всего около 100 человек. В первый день 40.
А к тебе гуголовский, никто не придет -)
Про
что-то не вирится. Не вечно же они в индексе висят, банятся ведь как-то? -)
Разные характеристики имени домена - зона, длинна, дефисы, спам слова, цифры ..
Да, тулза явно не по всем признакам из списка работает, а только по тем, которые имеют отношение к имени домена. Я сначала и не заметил, простите.
Задача создания тулзы по большому количеству признаков ждет своего автора -)
Когда короткие домены стали в дефиците -)
Если взять две выборки - домены 10-15 символов и домены 15-20 символов - где будет больше спама?
Опять же, признак - это не доказательство, а закономерность, работающая на больших числах.
Ставьте больше ссылок на внутренние страницы. Роботы индексаторы имеют свойство ходить по ссылкам -)
82.198.27.9
189.42.222.213
89.184.39.190
187.50.237.152
189.2.239.194
218.69.96.4
61.135.194.15