matik, респект за мнение! Действительно позволило посмотреть на задачу под другим углом.
А почему нет? Гимнастика для мозгов полезна, даже если не приносит прямой пользы. Ну а что касается анализа какой-либо выдачи поисковика - любое наблюдение, имхо, полезно. Сейчас не понадобиться, зато потом поможет в другом найти аналогию :)
andrej-ilin, спасибо за ссылку, мнение интересное и отчасти верное, хотя с пунктом 3, например, я не согласен.
Соглашусь, что моя формулировка, пожалуй, требует некоторых уточнений.
Действительно, исходя из моей формулировки, самой релевантной должна быть страница состоящаяя из одной ссылки. Но таких либо нет (я не нашел), либо они не самые релевантные.
Но если сделать допущение, что % передаваемого веса считается не линейно (количество ссылок на сайт Х * 100 / количество ссылок вообще), а зависит от количества ссылок и (может быть, тут я не уверен) веса страницы, то моё определение станет еще вернее :)
Получим интересный вывод - вес передается эффективнее в том случае, если ссылок несколько. То есть переданный вес = (вес ссылающейся страницы / % содержания нужных ссылок) * (коэффициент затухания * (1 + (к*кол-во ссылок))). Где к - некая величина, допустим 0.0001 (цифра и формула условные, прошу строго не придираться).
Другими словами, можно предположить, что коэффициент затухания не константа, а зависит от параметров страницы передающей вес.... Забавно. Надо обдумать...
Николай, можно я тебя немного поправлю?
Тут, на мой взгляд, неточность в формулировке.
Модель вероятности попадания посетителя на страницу Х - это расчет вероятности (того самого PR) и ничего более. Вероятность просто цифра. Иначе говоря - коэффициент, число.
Класический алгоритм PR предполагал только то, что страницы с большей вероятностью попадания на них посетителя - важнее и должны быть выше.
Ссылочное ранжирование (СР) - это учет лексики ссылок, для Гугля прямой, а для наших поисковиков еще и с морфологией. СР предполагает, что если на некую страницу ссылаются неким словом, то на этой странице есть важная информация о "слове". Такая страница важнее и должна быть выше.
Теперь, отделив мух от котлет (модель вероятности от ссылочного ранжирования), займемся их обратным смешиванием :)
В реальности, поисковые машины используют как оба способа по отдельности:
- нагоняем PR и страница "всплывает" по запросам из своего контента
- ставим много лексики в "слабых" ссылках - страница "всплывает" по этой лексике.
так и их смесь:
- коэффициент вероятности усиливает действие СР (лексика ссылки с более авторитетной страницы, влияет сильнее, чем с менее авторитетной).
- "слабая" (в плане коэффициента вероятности) лексическая ссылка на страницу с болшим коэффициентом вероятности дает тот же эффект, что и "сильная" ссылка на неавторитетную страницу.
Ну а если лексическая ссылка со страницы с большим коэффициентом вероятности ведет на страницу, у которой собственный коэффициент вероятности большой - получаем двойной эффект.
Вот, что хотелось сказать по первой фразе. :) Так сказать прояснить нечеткость формулировки.
Кто о чем, а вшивый о бане :) Это я про себя.
Ок. Задаю несколько вопросов:
1) Навигационный запрос "рисунки" - что может иметь в виду человек запросивший такое неконкретное понятие? Напишите, пожалуйста, список хотя бы из 5 пунктов.
2) Какие сайты в выдаче на данный момент, на Ваш взгляд не релевантны неконкретному запросу "рисунки"? (Специально отмечу в скобках, что релевантность определяется не тИЦ, не ВИЦ, не количеством ссылок, не частотой ключевого слова, а соответствием запросу. Неконкретному и очень размытому, в данном случае, запросу).
3) Какой, на Ваш взгляд, должна быть выдача по запросу "рисунки"? Не надо приводить конкретных адресов и не надо даже расставлять по позициям. Просто сформулируйте 10 общих описаний сайтов которые должны быть в выдаче. Например: детские рисунки, рисунки душевнобольных, продажа рисунков, покупка рисунков, техника рисунка, школа рисунка, обучение рисованию, коллекция рисунков, продажа кисточек и красок и т.п.
Kostya, почти точно!
Моя формулировка звучит так:
Ссылки отсортированы в порядке убывания доли передаваемого "веса" текущей страницы в процентах. При этом, величина и даже наличие "веса" не важны.
То есть страница все ссылки которй ведут на рассматриваемый сайт, и передающаяя соотв. 100% веса (даже если этот вес = 0) будет выше в списке ссылающихся, чем страница, передающаяя 90% своего веса.
Именно поэтому, во главе списков ссылающихся и находятся сайты на народе, состоящие из массы ссылок на один, рассматриваемый сайт.
Именно поэтому, выше страницы "версия для печати". У них нет массы навигационных ссылок, которые снижают % передаваемого веса.
Gray, я не настолько сильно слежу за темой... Спасибо за коммплимент, но ситуацию с Wordpress я не знал.
То есть твой прогноз - забанят? Я правильно понял?
-------
minaton, по первому пункту я согласен. Пользователю от этого больше проблем, чем пользы.
По второму пункту - я поддержу Wolfа - не за всякий клоакинг банят. Представим, что by.ru честно будет отдавать Яндексу то, что видим мы. В результате Яндекс всё равно доберется до сайта просто запросив ссылку "разархивировать". Тут вопрос в другом - надо ли Яндексу, что бы его трафик сливался на конкурирующую PPC систему?
Третий пункт:
Смотрим, что Яндекс знает на by.ru - страниц — 1162774, сайтов — не менее 28793. Если предположить, что все документы (страницы) на by.ru уникальны, то это 0.16% базы Яндекса. Не много, согласен. Но если по пути by.ru пойдут boom (500000), chat (500000), nm (1000000, при том, что неактивные акаунты удаляют) и прочие, то количество страниц, на которых может быть действительно уникальная информация (на бесплатных хостингах "живут" действительно нужные сайты, например, с научными работами, теми же отчетами о походах, литераурными произведениями авторов и т.п.) станет заметным.
Я, например, сильно не уверен, что банить всех напропалую - выход. Хотя и пути решения (разумного, во всяком случае) не вижу.
Ок. Если я назову это яндексовским аналогом PR, который не показывается в свободном доступе (что не исключает его существования) - так устроит? :)
Это действительно не так. Хотя близко... 🚬
Нарушу собственное обещание и дам еще две подсказки:
1) обратите внимание, что в списке ссылающихся, из нескольких страниц одного сайта, наиболее релевантной, довольно часто, оказывается версия для печати и подобное. О чем это может говорить?
2) Ссылки отсортированы в порядке убывания ... ... "веса" текущей страницы ... ... . При этом, величина и даже наличие "веса" не важны.
Ну, неужели никто не отгадает четыре пропущеных слова? :)
Господа, ну напрягите же голову! :)
Задачка же простая! 🚬
Думаю, что стоит дать ссылку на автора: http://www.udaff.com/authors/10metrov_provoda/
Самый свежий архив, который я смог найти - http://gtslift.by.ru - 122 дня.
При этом отмечу, что попадается очень много сайтов с интервалом 360 дней. Из 10 "архивных" - 5-6 штук именно 360-дневных.
-----
О! 🙅 Прошу заметить, что обсуждаемый выше http://lulinalex.by.ru/ тоже имеет 360 дневную давность редактирования, причем вчера было то же самое.
Вчера - "Последняя редакция сайта произошла 360 дней назад: 1-го сентября 2004-го года. (*) "
Сегодня - "Последняя редакция сайта произошла 360 дней назад: 2-го сентября 2004-го года. (*) "
На завтра ставки делать будем? :)
Сейчас трафик в Яндексе "сливают" на каталоги и дорвеи. Завтра начнут создавать "библиотеки контента" по принципу by.ru
1) Полезно ли это пользователю?
2) Полезно ли это Яндексу?
3) Как с этим бороться?
P.S. Может быть эту тему куда-нибудь в более серьёзное место переместить? Не курящая тема-то...
Что значит "обязать"? Яндекс (да и другие поисковики) не могут кого-то обязать. Могут только наказать, если есть хотя бы формальный повод, или как-то пессимизировать.
Наказать=забанить - не выход. Потеряется пласт уникальной информации.
Пессимизировать "в лоб" тоже не выход, сейчас "архивные" сайты и так находятся в основном только по редким запросам.
Задавая свой вопрос, я как раз и хотел услышать мнения по типу: "что бы я сделал на месте Яндекса".
А делать что-то придется. Не сейчас, так позже. by.ru - первый, но за ним могут последовать и другие.