Комментарии - ХренРедькиНеСлаще - Профиль вебмастера - Форум об интернет-маркетинге

Экспериментальные данные о "новом" алгоритме Яндекса

8 декабря 2006, 08:58

nickspring:
ХренРедькиНеСлаще, т.е Nкл/sqrt(Nтош) все же работает, но только до определенных пороговых (спамовых) значений? Тогда Ваш вопрос про 40 и 50 некорректен, правильное значение - некая золотая середина.

А кто бы знал. что вопрос некорректен, если бы я сам не сказал? :)

Точнее так скажем, оказывается, что 40 или 50 для естественных, сделанных для людей сайтов, однозначно в сторону 50.

А вот для сделанных не для людей :) Там что 40, что 50 практически все равно :)

Достали меня двусловные и многословные запросы

8 декабря 2006, 08:39

Еще один повод задуматься о двусловных запросах и дорвеях :)

Смотрите здесь:

/ru/forum/comment/1703804

Но просьба в той теме не писать о двусловниках!

Пишите здесь.

Экспериментальные данные о "новом" алгоритме Яндекса

8 декабря 2006, 08:26

Итак. продолжим.

Выкладываю еще несколько опытов (см файл внизу, а в нем начните с самого низа читать).

Выводы.

Еще раз убеждаемся, что стопслова учитываются в тошноте.

Так как число стоп слов ( в нашем примере ниже это предлог "в" 67 и 232 раза соответственно) не подгонялось специально, а страницы для эксперимента взяты почти с потолка, то цифры совпадений впечатляют.

2. Другие опыты на наших тестовых страницах показывают, что страницы с числом ключевика самого частого (НО НЕ ПРЕДЛОГА!!!) 40, 30 и 20, практически идентичны при запросе по этому ключевику.

Миныч предложил проверить такую штуку:

Яндекс анализирует самое частое слово и если это не стопслово, то очень критически к этому относится, вплоть до введения другой формулы для запроса по самому частому слову. Для стопслов и запроса по стопслову, мы проверили, модификации нет.

Для "другой" формулы ее вид получен, но пока повременим выкладывать.

Еще более интересный вопрос по двусловным запросам. Миныч считает, что Яндекс может слова из двусловных запросов таким же макаром сравнивать с числом стоп слов и если они выбиваются из "естественной" статистики !естественного" текста, также вводить "альтернативную формулу" для двусловных запросов, тем самым ударяя по дорвеям и прочим любителям спама :)

Скоро займемся проверкой таких штук. Прошу двусловные запросы обсасывать в другой теме!!! :

/ru/forum/98225

Приведу некоторые слова из текста файлика:

Грубые измерения ступенек Миныча смотрим со строки 380, более точные следуют далее

Величина ступеньки Миныча из данных измерений (берем одно из самых точных измерений) для урла url1 = "bourabai.georisk.kz/tyapkin/ruzichka.htm"

0,06394806852234

Величина ступеньки Миныча из данных измерений (берем одно из самых точных измерений) для урла url2 = "bourabai.georisk.kz/tyapkin/biography.htm"

0,11899645481176

Самое частое слово в урле1: слово "в" 67 раз

Самое частое слово в урле2: слово "в" 232 раза

Квадрат отношения ступенек урла 2 к урлу 1 равен:

3,46268656992025

Отношение самых частых слов равно 332/67:

3,46268656716418

Сравниваем два числа красного цвета, которые получены совершенно разным способом, но как ни странно практически равны :)

Что прекрасно согласуется с теорией Миныча.

Из этих же экспериментов следует аддитивность и линейность по вкладу в релевантность членов вида (если отбросить "округление" из-за ступенек):

Релевентность=КОНСТ*(число ключей)*sqrt(ln(вес ключа)/sqrt(частота самого частого слова)

Однако, другие эксперименты показывают, что Яндекс модифицирует данную формулу, если сочтет страницу спамной :)

🚬

zip 2974.zip

Экспериментальные данные о "новом" алгоритме Яндекса

6 декабря 2006, 21:19

XTR:
Сообщение от ХренРедькиНеСлаще
Кто допетрит, через Y секунд возникнет вопрос, а что лучше? 40 или 50?

40 лучше т.к. тошнота страницы будет меньше

Дам небольшой намек, та формула, которую дал, немного устарела. Так кто как думает, 40 лучше или 50?

заодно вспоминаем чем Яндекс ударил по дорвеям :)

Появилась одна идейка по поводу расклейки двусловных запросов.

6 декабря 2006, 19:21

Маэстро:
Сообщение от Evgeniy
ХренРедькиНеСлаще, получается, что конкурент зарегит тебя в каталогах или линкаторе и сайт упадет по нужным запросам из-за того, что процент "нужных ссылок" уменьшился? Яндекс на такое не пойдет.

Да ерунда это все.

Маэстро, Вы думаете я Вас буду переубеждать или что-то доказывать? Хрен с два :)

Хотя расчет действительно приблизительный. Для точного надо немного больше. Тошноту ссылочную привлечь, распределение по Вицам доноров,...

Появилась одна идейка по поводу расклейки двусловных запросов.

6 декабря 2006, 13:11

Maxusha:
Дело все в том, что от слонов прибыли в десять раз больше. Обезьяны так, для доукомплектации. Так что вытаскиваю слонов.

Представьте, было у Вас ссылок 1000, из них с розовыми слонами 800. Добавили вы 400 обезьян и 100 слонов, теперь процент слонов уменьшился до (800+100)/(1000+400+100).

Теперь процент слонов, надо как минимум вернуть к прежнему значению: 800/1000

Отсюда вывод: нужно поставить столько Х слонов НОВЫХ:

(Х+800+100)/(1000+400+100+Х)=800/1000, те:

(Х+900)*1000=(1500+Х)*800 те

(Х+900)*5=(1500+Х)*4 те

5Х+4500=6000+4Х, те

Х=1500 (это НОВЫХ каталожных ссылок!)

Вот так то баловаться прогонами по каталогам. Хрен снимешь теперь бестолковые обезьяньи ссылки. А чтобы их все таки перебить количеством, надо 1500 новых поставить :(

Это хоть и очень примерная оценка, но не шибко ошибочная :)

"черепахи накурились кенгуру под лсд" а за ними кот нюхал парашок

Мальчик, есть невропатологи, веселые люди, кстати, Вы вполне составите им копанию.

Появилась одна идейка по поводу расклейки двусловных запросов.

6 декабря 2006, 12:42

Maxusha:
Цитата:
Сообщение от keks
А в чем идейка то? Прогнать сайт по каталогам?

ну в общем, сейчас этим и занимаюсь.

Это уже не поможет. Вытащите слонов, упадут обезьяны.

Это закон сохранения запросов :)

Минимальное зло, прогнать по "розовые слоны обезьяны пъяны".

🚬

Экспериментальные данные о "новом" алгоритме Яндекса

5 декабря 2006, 09:58

DrJeans:
Возможно, я что-то недорубил, тогда можно задать вопрос: как лично Вы считаете, что означают эти веса слов для Яндекса? Если можно самым простым языком, без формул и терминов.

Без формул трудно. Эти веса обратно пропорциональны числу всех этих слов во вем индексе яндекса.

Те, если слов "qq" во всех документах интернета 100

а слов "яя" во всех документах 25, то вес слова "яя" в 4 раза больше веса слова "qq".

Весь интернет, это тот интернет, который Яндекс проиндексировал. Остальной нам до фени. Точнее не нам, а Яндексу до фени.

Экспериментальные данные о "новом" алгоритме Яндекса

5 декабря 2006, 09:35

DrJeans:
Цитата:
Сообщение от ХренРедькиНеСлаще
Это по формулам Точнее, экспериментально установленный факт.
А как же:

смешной::21676 | йода::321323

ледеркис::1819103916 | машина::3193

Не скажу во сколько или на сколько, но ИМХО "смешной йода" должно быть больше в тексте, это как выразился wolf, для идеального газа, а идельного ТОПа не бывает. Нужно анализировать конкурентов.

Я ответил на вопрос: если человеку нужно ПАРАЛЛЕЛЬНО и ОДНОВРЕМЕННО на ОДНОЙ И ТОЙ ЖЕ СТРАНИЦЕ поднять места по

"смешной хрен"

"веселая редька", то надо сделать так, чтобы продвижение по одномиу запросу не опускало ддругой запрос, а для этого нужно их число сделать равными.

На веса слов в запросах, которые не мы задаем, а пользователи, мы влиять не можем, а они про них и не знают, поэтому веса тут до фени.

Вариация весов нужна НАМ для анализа и постановки опытов, а после изучения опытов и анализа они нам уже до фени: закономерности выявлены, законы открыты, надо уже делать выводы и использовать.

Экспериментальные данные о "новом" алгоритме Яндекса

5 декабря 2006, 08:14

DrJeans:
Это рекомендация "на глазок" или по Вашим формулам?

Это по формулам :) Точнее, экспериментально установленный факт.

nickspring:
ХренРедькиНеСлаще, и все же по комбинациям самый интересный момент это момент подсчета слов в разных формах:

смешной йода
смешного йода

йода 2 раза
смешной - 2 или 1 раз?

Потерпите немного. Я ответ знаю, но этот ответ трехдневной давности, вот закончу 1 опыт, который к выдаче готовлю, выложу, потом и морфологию еще раз проверю и тоже выложу. Чтобы все было свеженьким :)

Маркетинг для шоколадной фабрики. На 34% выше средний чек

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

ХренРедькиНеСлаще