Для вычисления релевантности документа используется формула, учитывающая несколько различных факторов - Яндекс

159

Atteon

26 января 2009, 00:26

#51

cromizer:

Попробуй прогнать сателит какой нить если не жалко.
1. прогнать по каталогам (4.000 штук).
2. прогнать по базе форумов (200.000 штук)
И через месяц попробуй его продвинуть по 2-3 СЧ.
Будет у него через 2-3 месяца там 500-3000 беков, а вот продвинуть его будет проблема.
Я ради того, что бы проверить что будет - попробовал. =)
Из хорошего ТИЦ стал 20 и PR 3, но вот продвинуть запросы стало сложно.

Прогони мне нахаляву, а то мне пообещали после прогона по 7000 мусорных каталогов пессимизацию, прогнали - пессимизации не увидел 😆

29

cromizer

26 января 2009, 00:36

#52

Atteon:
Прогони мне нахаляву, а то мне пообещали после прогона по 7000 мусорных каталогов пессимизацию, прогнали - пессимизации не увидел 😆

Могу тебе базы каталогов дать (авто регу).

а по форумам без проблем =) давай урл =)

seo-шаман

159

Atteon

26 января 2009, 00:42

#53

cromizer:
Могу тебе базы каталогов дать (авто регу).
а по форумам без проблем =) давай урл =)

База не нужна, я ленивый...

Сайт Имя сайта в этой теме

251

Seredniy

26 января 2009, 00:42

#54

и мне бы на халяву....)) А если по теме то я поддержую точку зрения вишмастера

Wordpress и другие CMS: правки, настройка, верстка и натяжка шаблонов, разработка сайтов "под ключ" (/ru/forum/1008050)

29

cromizer

26 января 2009, 00:52

#55

Atteon:
База не нужна, я ленивый...

Сайт Имя сайта в этой теме

надо внимательнее читать...

я же сказал, что сайт должен быть новый, домен нулёвый... а у "волка" уже история и тИЦ и PR... =)

159

Atteon

26 января 2009, 00:57

#56

cromizer:
надо внимательнее читать...
я же сказал, что сайт должен быть новый, домен нулёвый... а у "волка" уже история и тИЦ и PR... =)

Ага, после эксперимента. До него всё было нулевое :) и домен был новый и сайт свежий, и подходил под все условия: саттелит, псевдоСДЛ и т.д. Хотя была обещана пессимизация и прочие ужасы

29

cromizer

26 января 2009, 01:56

#57

Ответ на вопрос о том, что есть ли у сайта вес или только у страницы.

Пункт 1.

Для вычисления релевантности документа запросу:

W = k1*W1 + k2*W2 + k3*W3 + k4*W4(1), где W – итоговое значение релевантности документа. k1, k2, k3, k4 – коэффиценты.

W1 = TF*IDF(1) * F1

TF*IDF(1)

tfd(l) = freqd(1)/( freqd(1) + 0.5 + 1.5*dld/avg_dl)

freqD(l) - частотность леммы l в документе, dlD – мера длины документа, avg_dl – средняя длина документа

idf(l) = log((|c| + 0.5)/df(l))/log(|c| + 1)

где |c| - количество документов в коллекции, df(l) - количество документов, где встретилась лемма l.

В итоговое значение tf*idf входят, помимо обычной встречаемости слова в документе, надбавки за присутствие слов в выделенных областях (title, заголовки типа h1-h4 и т.п.).

F1(DocWeight) – функция от веса документа, вычисленного по схеме, предложенной в http://infolab.stanford.edu/~backrub/google.html.

Особенности функции:

а) F1, в том числе, занимается приведением значения DocWeight до нужного диапазона, фактически, нормировкой. Действие функции на вес документа сильно зависит от способа нормировки, что в итоге существенно влияет на порядок документов в выдаче;

б) Часть ссылок признаются не информативными и в расчете не участвуют.

Фактически W1 отвечает за информационную значимость документа и его вес по отношению к другим документам.

W2 = Σ (TF*IDF(Link)* F2(LinkWeight))

где: TF*IDF(Link) - TF*IDF ссылки на данный документ;

F2(LinkWeight)) – функция приведения весов ссылок на документ. LinkWeight вычисляется аналогично DocWeight

Т.о. W2 отвечает за информационную значимость ссылок на данный документ и их веса.

W3 = F3(расстояние) – функция, отвечающая за учет расстояния между словами запроса в документе. Имеет ненулевое значение при прохождении кворума.

W4 - группа дополнительных параметров

1) Близость слов из запроса к началу предложения.

2) Встречаемость в документе точных словоформ из запроса.

2.1. Пары слов

2.2. Близость слов из запроса к началу предложения.

А так же:

Применение словаря сокращений

Применение списка стоп-слов

Применение списка синонимов

Лингвистическая составляющая алгоритма заключается в учете смысловых значений слов, которые определяются на основании теории коммуникативной грамматики русского языка -Золотова Г.А. Синтаксический словарь- с использованием понятия синтаксема.

А вот правило:

Если встречается синтаксема в падеже <родительный> с предлогом <для>, имеющая категориальный класс <личное>, а до неѐ встречается синтаксема в падеже <именительный>, имеющая категориальный класс <предметное>, то полагается, что первая синтаксема имеет значение <дестинатив - назначение предмета или действия >

Пункт 2

Для ранжирования документов используется формула, учитывающая несколько различных факторов:

W = Wdoc+Wtitle+Wbegin+Wps1+Wps2+Wps3+Wstr

где:

Wdoc- вес всего документа;

Wtitle - вес заголовка;

Wbegin - вес начальной части документа;

Wps1- вес лучшего «длинного» пассажа;

Wps2 - вес лучшего «среднего» пассажа;

Wps3- вес лучшего «короткого» пассажа;

Wstr- вес лучшей цепочки слов.

Wdoc- оценивает вес всего документа

d - оцениваемый документ (d=title∪body);

t - слово из поискового запроса;

q - множество слов, входящих в поисковый запрос;

QF - функция, предназначенная для оценки доли слов запроса, встречающихся в документе.

Функция представляет собой отношение суммы IDF слов запроса, встречающихся в документе, к сумме IDF всех слов запроса.

Для расчета TF и IDF

freq(d,t) - количество вхождений слова t в документ d;

|d| - длина документа d в словах;

k1 = 1;

k2 = 16384;

|c| - количество документов в коллекции c;

df(t) - количество документов, в которых встречается слово t. Следует заметить, что Wdoc оценивает именно весь текст документа, включая и его заголовок, несмотря на то, что в общей формуле W присутствует отдельная оценка веса заголовка.

Вес заголовка

Wtitle=ktitle*QFTFIDF(title,q)

ktitle - коэффициент, задающий «важность» веса заголовка в общей формуле ;

title - заголовок документа.

Вес начальной части документа

Wbegin=kbegin*QFTFIDF(begin(body,N),q)

kbegin - коэффициент, задающий «важность» слагаемого Wbegin в общей формуле ;

begin(body,N) − первые N слов тела документа body.

Вес лучших пассажей, вес лучшей цепочки слов и прюнинг- расписывать не буду.

Делаем не хитрые вычисления и сравниваем текущий серп Яндекса с полученными результатами.

И видим, что при ранжировании учитывается не только вес конкретной страницы, но и сайта в целом.

Если я ошибаюсь - поправьте меня.

cromizer добавил 26.01.2009 в 05:01

Atteon:
Ага, после эксперимента. До него всё было нулевое :) и домен был новый и сайт свежий, и подходил под все условия: саттелит, псевдоСДЛ и т.д. Хотя была обещана пессимизация и прочие ужасы

Так как прорегили сайт волк - его не за что ругать... там всё в рамках. И даже анкор-лист не переспамлен.

2542

The WishMaster

26 января 2009, 02:30

#58

cromizer, я ж просил - тезисы, а не выкладки:)

И еще вопрос - это все применяется на практике в яндексе или так, теория?

Пешу текста дешыго! Тематики - туризм, СЕО, творчество, кулинария, шизотерика :)

159

Rudokop

26 января 2009, 02:43

#59

cromizer, ты хоть ссылку давай, откуда материал берёшь, а то ты так активно вещаешь, что многие могуть подумать, это ты из головы всё берёшь.

Оригинал рассчёта кромайзера:

http://romip.ru/romip2008/2008_07_km.pdf

29

cromizer

26 января 2009, 03:02

#60

Rudokop:
cromizer, ты хоть ссылку давай, откуда материал берёшь, а то ты так активно вещаешь, что многие могуть подумать, это ты из головы всё берёшь.

Оригинал рассчёта кромайзера:
http://romip.ru/romip2008/2008_07_km.pdf

Я же сказал, что это я не из головы взял....

Зря ты ссылку выложил.... 80% пользователей форума всё равно не поймут, что там написано. Раньше эти материалы на яндексе постили, а теперь убрали...

Кстати, дорвейщики и создатели гс для сапы, всем советую. Там инфы про то, как сделать хороший гс как грязи... при наличии фантазии, умения пользоваться поиском и умения программить - можно создавать хорошие гс.

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Open AI тестирует память для ChatGPT

Пессимизация из за каталожных ссылок