Искал кресло детское сегодня в гугле. То то я гляжу, мне что-то питерские магазины предлагает, хотя регион Москва стоит.
По подобным вопросам нет смысла гадать, т. к. ответ легко может быть найден после запуска "подарка".
Все верно, но за маленьким исключением: в случае ПФ нам не дуступна большая часть поведенческой информации, мы не знаем интересов посетителей, не знаем предистории что он перед этим искал и что делал, не знаем его пол и возраст и т.д. и т.п. Нам эта информация не доступна, а яндексу доступна, поэтому он будет всегда впереди (теоретически).
Вопрос не в наличии ссылочного в топе, а в том - насколько эффективно сейчас работают ссылки и работают ли вообще. Может быть сайты в топе сами по себе хорошие, не зависимо от ссылочных факторов.
Вот объясните мне, с чего вы взяли, что алгоритмы яндекса считают, что чем больше время пребывания и число просмотренных страниц, тем лучше? Вы же сами понимаете, что это не так. А в яндексе этого не понимают?
Важна лишь комбинация значений этих (800 :)) факторов. А высокие конкретные значения или низкие - по барабану. Причем оптимальные комбинации очевидно для разных тематик, интересов посетителя, сайтов, даже конкретных страниц в конце концов могут быть разными.
Хотите накрутить? Флаг вам в руки. Вы всегда будете находиться в заведомо проигрышной ситуации.
Именно, что всё очень не просто :).
Более того, обучение производят асессоры (живые люди), поэтому если, к примеру, этим людям будет нравиться дерьмо, то будут соответствующие веса и возбуждения нейронов :). Как результат - в топе будет сами знаете что :).
Хотя все пользователи Яндекса сейчас по сути стали учителями матрикснета. Надеюсь, они научат его чему-нибудь чистому и светлому... :)
Веса знать также бесполезно.
Например, рассмотрим время, проведенное на сайте (t) и количество просмотренных страниц (n) и получим такие варианты:
1) t=30 сек, n=1 стр.
2) t=600 сек, n=10 стр.
Какой вариант лучше, можете сказать?
...если человек искал прогноз погоды?
...а если он на том же сайте галерею картинок каких-нибудь захотел посмотреть?
Из слов самих представителей Яндекса на разных семинарах и пр. Многие их алгоритмы опубликованы. Но чтобы многие их слова не пропускать мимо ушей, лучше попробовать написать свой собственный (пусть и простейший) поисковик, работающий с большим объемом данных.
Матрикснет это алгоритм машинного обучения (алгоритм ИИ). По их описанию, насколько помню, он похож на генетический алгоритм, который используется для получения математической функции по набору данных. Причем если в учебниках приводятся примеры для функции y=f(x), то у яндекса эта ф-ция выглядит как то так: y=f(x1, x2, x3,... x800) :)
Алгоритмы ИИ хороши конечно, но в большинстве своем очень тормозные.
Да в конце концов просто поставьте себя на место разработчика. Вот поисковику задали запрос из трех высокочастотных слов. Под этот запрос предположим подходит 100 миллионов документов. На всё про всё у вас есть только 50 милисекунд. Если делать тупо в лоб, то вы даже отсортировать (на одном сервере) такую выборку в заданное время не сможете, даже если все веса уже заранее просчитаны и ничего дополнительно вычислять не надо. О каком матрикснете здесь может идти речь? Сначала каждый из десятка тысяч серверов выдаст головному серверу с помощью простейшего алгоритма по небольшому набору данных, эти наборы соберутся в общий набор, и только эта небольшая выборка будет реально пропускаться через серьезные (тормознутые) алгоритмы.
Короче, без многоэтапной обработки (начальные этапы простые, последующие усложняются), без поэтапного отсева данных не обойтись на больших объемах. Тупо в лоб там ничего не сделаешь, поэтому приходится идти на множество компромиссов.
Через Матрикснет пропускается лишь очень ограниченная часть данных.---------- Добавлено 14.12.2013 в 01:32 ----------
Это не поведенческие факторы, т.к. значения данных параметров сами по себе о поведении посетителя ничего не говорят.
Из всех вариантов решения проблемы пагинации, я остановился на следующем:
Во всех пагинированных страницах (у которых в урле ?page=...) в метатеге robots прописал "noindex, follow". Таким образом я запрещаю помещать пагинированные страницы в индекс, но разрешаю пауку проходить по ссылкам на них. В итоге и дублей нет, и на индексации товаров не сказывается.
Выбрал этот вариант как самый простой. У меня Друпал и всё это дело делается автоматом в хуке.
Кстати, да. Сталкивался с высококачественными сайтами, которые встречать по одежке смысла нет. Это по больше сервисы, чем просто сайты. С виду например обычный невзрачный каталог, коих тыщи, а фишки - в юзабилити (для достижения цели нужно сделать не десять кликов, как у других, а один-два). Но чтобы это оценить, нужно какое-то время таким сайтом попользоваться.
И в итоге получается, что (поверхностная) оценка сайта каким нибудь модером резко констрастирует с оценками пользователей, да и самого алгоритма.