ХренРедькиНеСлаще

ХренРедькиНеСлаще
Рейтинг
57
Регистрация
27.07.2006
Должность
Безработный, если кто даст подработать подкинет, милости прошу к своему шалашу... Девушкам особое почтение! :)
Интересы
Вино и бабы :) Короче, Любовь!
Любитель редьки и огурца
amonasro:
Вопрос по сути. Другими словами, как я понял, вы утверждаете, что нормировка tf (тошноты) осуществляется по самому частотному слову в документе, и что теперь Яндексом стали учитываться стоп-слова.

Таким образом, если мы имеем две практически одинаковые страницы с общим количеством 300 слов, из них 10 слов - "ключевик", но на одной странице 20 союзов "и", а на другой их 16, то вторая страница будет более релевантна по запросу "ключевик".

И отношение релевантностей будет равно sqrt ((10/16) / (10/20)) ?

Да, это так, если союз "и" самое частотное слово на обоих страницах и ВИЦы страниц одинаковы.

Можно еще заметить, что наиболее оптимален вариант, когда наш ключевик - самое частотное слово.

Anryk:
Сейчас, получается так, Вы проводите эксперимент, пренебрегая какими-то параметрами, потому что ранее Вы уже выяснили на основе других экспериментов, что эти параметры влияют на выдачу таким-то образом, т.е. с большими допусками и в отрыве от времени,(алгоритм же меняется?) Что приводит к получению крайне интересных, но, возможно, неверных результатов и порождению новых "заблуждений", коих, тут я с Вами согласен, и так хватает.

Если Вы считаете, что три дня назад сделанные эксперименты, в том числе с использованием разных позиций слов, разных падежей, строчных и заглавных букв и т.п. это "хреновые" и "неверные" данные, то мне сказать Вам нечего. Поищите на форуме, может найдете философский камень :)

nickspring:
ХренРедькиНеСлаще, и что, объем страницы не учитывается? т.е. получается с очень большой вероятностью, что статья на 10000 знаков про попугаев будем менее релевантна, чем новость про этих же попугаев?

Это выяснил Миныч еще года полтора назад, что играет роль не объем текста, а самое частотное слово. Но ранее стоп слова в подсчет самого частотного слова не входили.

Это к вопросу об оптимальной плотности ключевика, которой нет. Если самое частотное слово входит менее 7 раз, то используется число семь в качестве числа самого частотного.

aka352:
ХренРедькиНеСлаще, встречный вопрос, есть уверенность, что эти изменения произошли именно с 10 ноября? Может это уже давно было?

Насчет 11 не уверен, но недавно было ИНАЧЕ.

Мы в основном следили за числом самого частого слова без стоп слов. Например ru,www,http не были стопсловами. "И", "в" были неучитываемыми в подсчете самого частого слова.

Хотя можно поднять старые данные, но не хочется на это время терять.

Anryk:
именно о том, с чем Вы экспериментировали о "стоп-словах", поэтому "заблуждения" здесь не при чем. Т.е о том, что условия эксперимента некорректны, например, объем текста на тестовых страницах разный. Почему, кстати, было не сделать одинаковый?

Anryk, я говорю в том числе и о стоп словах и о предлогах и о союзах. Сотни и даже тысячи опытов уже сделаны (в этом топике ДЛЯ ПРИМЕРА три страницы) и с одинаковым числом слов/предлогов и с разным. Я потому так уверенно и говорю, потому что сам это делал сотни раз. И это именно мифы, что Яндекс такой умный, с искусственным интеллектом почти.

Даже то, что Яндекс озвучивает публично, в основном в Большом Яндексе не используется, ввиду массы спама и поискового шума, для которого идеальные алгоритмы слабо подходят. Не до жиру.

aka352:
Противоречит хотя бы потому, что учет стоп-слов резко увеличивает вычислительную нагрузку. И по сути не несет в себе никакой логики, т.к. стоп-слова не несут смысловой нагрузки.

Я не претендую на ЛОГИКУ ЯНДЕКСА. Я замерил, что ЯНДЕКС ДЕЛАЕТ, а вопрос "почему", это уже к Яндексу.

Увеличение нагрузки введение стоп слов не несет, стоп слова Яндекс очень давно индексирует наравне с обычными (+поставить и стоп слово становится не стопсловом в запросе).

Стоп слова несут статистическую информацию об объеме текста.

Anryk:
Не вдаваясь в математику (ибо, кто я такой, чтобы тягаться с ХРHС в этом ), хочу, однако, заметить, что если этот результат верен, то наибольшей релевантностью будет обладать страница с простым перечислением ключевиков. Или, в лучшем случае, с неестественным текстом типа: "Рассвело. Подуло. Включил кондиционер. Холод. Выключил кондиционер. Пультом управления...", т.е. текстом не "для людей". Что, на мой взгляд, противоречит здравому смыслу, и бросает тень на Яндексоидов, в смысле их способности реализовать свою основную идею "выдача страниц созданных для людей релевантных запросу пользователя".

К тому же, есть у меня сомнения и в корректности данного эксперимента в целом, т.к. где учет объема текста на странице, весовых коэффициентов расположения предлогов относительно начала страница, коэффициента кучности расположения предлогов, весового коэффициента каждого предлога, коэффициента естественности союзов?

Никакой тени на Яндекс это не бросает. И никаких "для людей" роботов у них нет. Есть обычный ручной бан и навечно. Это тоже немало.

Корректность эксперимента, засучите ручки и проверьте каждую строчку и каждый запрос, все выложено, что делалось.

Ваши "учет объема текста", "весовых коэффициентов расположения предлогов относительно начала страницы" и другие "перлы" есть не что иное как заблуждения, давно выявленные экспериментально как не соответствующие нынешнему состоянию дел. Миныча надо почаще читать, самому эксперименты ставить, а не верить слухам и домыслам.

Ко мне слишком много вопросов. Если коротко:

Если кто то продвигает ТОЛЬКО "квартирные кровати" и больше ничего, то мои слова к этому не относятся. Но если кто то продвигает квартирные кровати и паралельно презервативы, то запросто может получиться дисбаланс :)

Посмотрите "давайте померяемся ВИЦем" и подумайте, почему по этому запросу и запросу "создание сайтов" результаты различаются?

IndexSa:
С интересом читаю ваши посты, но всегда не покидает чувство, что вы не знаете на практике, что происходит. Сейчас Я сделал так, будете поднимать "квартирные переезды", поднимите "квартирные" и "переезды"

А что такое "практика"? :)

Это когда "аппендицит" в первый раз вырезают? И когда блин комом?

А вот скажите, Вы поднимаете именно "квартирные переезды", что при этом будет сильнее подниматься? "переезды", "квартирные" или "квартирные переезды"? :)

И как насчет эффекта от точного вхождения запроса в текст ссылки, это было. или это есть, или это еще только будет? :)

И насколько в процентах эффект этого (прошлый, настоящий или будущий)?

The WishMaster:
Сообщение от ХренРедькиНеСлаще
Этот груз старых текстов ссылок всегда будет тянуть Вас вниз.

Гыыы С чего бы это?
Может, с перепоя асессоров?
MiRaj:
Не совсем так. Изменились правила простановки анкоров для продвижения - это да.
Но падение за счет продвижения других запросов - это нонсенс. Сами подумайте, какой простор для творчества получают конкуренты.

Это простор довольно острый. Не рассчитаешь силу и вместо удара получится поддержка конкурента :)

А внутренние ссылки вы считаете несущественным фактором? :)

Всего: 982