ХренРедькиНеСлаще

ХренРедькиНеСлаще
Рейтинг
57
Регистрация
27.07.2006
Должность
Безработный, если кто даст подработать подкинет, милости прошу к своему шалашу... Девушкам особое почтение! :)
Интересы
Вино и бабы :) Короче, Любовь!
Любитель редьки и огурца
D. Nosulchik:
Сколько составлять названий чтобы не было склейки?

Поясните, плиз, шо це таке: склейка и чем ее закусывают? :D

Учитывает! :D

Как народ и аддурелку 🚬

Тут писать (предполагать) можно долго.

Все-таки предполагаемая зависимость логарифмическая и прочувствовать ее можно только сравнив по крупному, но факторов около десятка-двух десятков, поди отдели множитель 1/2 от мифического вица, тошноты, числа беков и хавбеков.

Например, на сайте1 16 страниц, на сайте2 4096

На каждом по 4 найденных страницы.

Коэффициент ослабления (мифический idf)

сайт1: (4-2)/4=1/2

сайт2: (12-2)/12=5/6

Так что можно не заморачиваться по крупному 🚬

Предложения потому что в них поиск яндекс скорее ведет и экономит вычисления, (хранив id предложения) делая один раз сразу для всех предложений дублей.

Наиболее контрастный сайт "помогает" наиболее контрастной странице по заданному запросу.

Вот чешу репу, насколько наша логика, могла бы состыковаться с Яндексом. Вдохновляет, что эта логика серьезно поимогает бороться с дорвеями, как со стороны tf (нормировка, тошнота), так и со стороны idf 🚬

zambezi:
Но речь о добавлении таких же релевантных страниц

Давайте прикинем, зачем нам 10 релевантных страниц по одному и тому же слову "рыба"? Или для примера "пластиковые окна"... Какая то из них должна быть главнее (корнем, оглавлением,...). На нее будут стоять нужные ссылки, внутренние и внешние. Если мы размажем все ссылки по равноценным страницам, то проиграем.

Яндекс ведь ищет документ (как это признается). Если бы его задача была: найти САЙТ по рыбе, то это было бы совсем другое дело и другой поиск.

А так как Яндекс еще убегает от контекста документа в пользу контекста предложений, то возникает ассоциация, что яндекс ищет скорее наиболее подходящую коллекцию предложений, находящихся на одной странице (страница - коллекция предложений как бы, взамен коллекции документов).

В общем наиболее контрастная страница по ключевому слову из наиболее контрастных документов по этому же ключевику на сайте.

Страница контрастная потому, что частота слов там повышена по сранению с другими словами. И наиболее контрастный сайт по концентрации ключевиков только на очень малом количестве страниц.

zambezi:
Цитата:
Сообщение от ХренРедькиНеСлаще
Вполне вероятно, что так делать бессмыссленно, если нужны топовые позиции в выдаче. А вот УМЕНЬШИТЬ число таких страниц - это вариант.
Поверить не могу... где смысл? где логика?

А верить и не надо. А просто подумал вслух :) А на самом деле надо опыт поставить и проверить. А вот ЛОГИКА есть, особенно если хитрых дорвейщиков расплодится немеряно. Можно и к первооткрывателям tfidf за логикой обратиться, а то их умные люди цитируют, в том числе создатели алгоритма яндекса, а мы все на уровне почесать за ухом себя ведем.

zambezi:
Логарифмическое, да, но при наращивании числа релевантных страниц idf уменьшается, это точно. А вот как это влияет на выдачу, уже туго

Так ориентировочно насколько влияет можно из ИРбиса взять, а потом проверить :)

(логарифм двоичный от доков на сайте - логарифм двоичный от найденных)/(логарифм двоичный от доков на сайте)

Это коэффициент уменьшения tf.

zambezi:
Да замечала, конечно, но мне не понять, почему заботящийся о пользователе Яндекс выдает человеку, ищущему рыбу, доску объявлений с объявлением о продаже рыбы вместо большого портала про рыбу! Нонсенс.

Почему нонсенс? Представьте на сайте 1000 доков с одним словом "рыба" на каждой странице. А на другом 1000 доков без слова рыба и один док со 100 словами рыба. Кто более истории ценен?

zambezi:
Из данных ссылок следует, что IDF пропорционален соотношению кол-во страниц на сайте/кол-во релевантных запросу страниц на сайте.
В топике речь как раз о том, чтобы увеличивать количество релевантных страниц.

Вполне вероятно, что так делать бессмыссленно, если нужны топовые позиции в выдаче. А вот УМЕНЬШИТЬ число таких страниц - это вариант.

Но с другой строны надо собирать низкочастотники, поэтому число страниц на сайте вообще-то надо делать большим и меню не сквозное, а в виде дерева. Хотя и здесь не все так гладко. Говорил же Сегалович, что релевантность размазывется по многим признакам. Так что нос вытащишь, хвост увязнет. Заточишь сайт под одно, зато другое упустишь. Да и влияние idf там логарифмическое а не линейное, да еще смотришь с каким-нить "корешком" с показателем между 1/2 и 1/3 (см. статью Сегаловича на ромипе).

чисто по-человечески - ведь должно влиять количество!

мне по человечески иногда хочется качества :)

Это как? Лучше одна девушка, добрая и любящая тебя, или 10 злых стерв?

Почему сайт с сотней страниц, из которых одна про рыбу, должен считаться более релевантным запросу "рыба", где сайт, на котором сто страниц и все про рыбу?!

Это учет того, что на этом сайте вес слова "рыба" обесценивается для наиболее релевантной страницы (становится малоинформативным), но не до нуля! КОНТРАСТНОСТЬ слова рыба становится маленькой.

Вообще, не замечали, что иногда в топе появляются доки с каталогов? С какой стати? Или с форумов? Опять таки, почему?

В теории и практике поиска документов в коллекции, например в каталогах (Яндекса), новостях, маркете, сайте есть такой параметр как idf (inverse document frequency). И он считается не менее важным чем tf (term frequency)/

А классическая теория так и называется tf-idf

см например ссылки в :

http://www.yandex.ru/yandsearch?text=tfidf+%EF%EE%EB%ED%EE%F2%E5%EA%F1%F2%EE%E2%FB%E9+%D1%E5%E3%E0%EB%EE%E2%E8%F7+%CC%E0%F1%EB%EE%E2&stype=www

http://company.yandex.ru/articles/romip2004.xml

Чем меньше в процентах найдено документов в коллекции (сайте, например) тем более значима найденная страница (совсем обратное тому, что кто-то любит большие сайты). От Яндекса скорее можно ожидать, что он любит малый процент найденных на сайте страниц.

И то, что яндекс ее имеет в алгоритме, очень и очень вероятно. Вопрос скорее в том, какую нормировку он делает для idf сайта. 🚬

Эта подсветка когда-то привела к разгадке переколдовки.

Это намек на внутреннюю организацию данных в базах Яндекса.

Вроде sg одинаково для всех доков при нажатии еще с сайта.

Похоже, надо ждать усложнения в алгоритме.

Это было в годовщину ГКЧП, 19 августа? :

http://www.yandex.ru/yandsearch?text=%2Bdsn+%26+%2Bsh+%26+%2Bsg&stype=www

Вот уже и в ссылке стало не 16, а 17 первых слов учитываться.

ZanderXML:
Я думаю, что сервис окупится только за счет экономии на продвижении собственных клиентов Корпорации РБС.

Вполне может окупиться за счет прихода в компанию такого талантливого человека, как Euhenio ;) , независимо от самого проекта по аналитике.

Наиболее полезен он будет как раз самому Euhenio, и мне кажется (кстати не только мне :) ) вполне справедливо, что фирма оплатит бартером его труды и стремление к счастью. Надо только порадоваться за хорошего человека.

Тут есть мнение, что через достаточно короткое время выяснится справедливость Wolf-а в том, что существуют более точечные и более релевантные решения для сервиса СЕО. Так что сама идея тратить серьезные ресурсы сойдет на нет.

Но есть еще такая штука как реклама и закон крысиного вожака, когда все тупо идут за его дудочкой прямо в море, подчиняясь общему психозу. Если эта идея имеется в виду, то она тоже с успехом может сработать, как разные МММ, гербалайф, МЛМ совсем недавно. Правда, от нее нам проку будет, точнее не будет.

Опыт советской жизни показывает, что цифры по срокам, которые дает программист или Министр того программиста, можно смело умножать на 10. Для более трезвой оценки.

Можно от души пожелать Euhenio успеть сделать как можно больше, пока бюджеты на исследования не урежут раз в 10!

MoMM:
Да. Этот метод популярен. Тексты таким образом метятся. На жаргоне этот метод называется "запустить блох". Затраты там не очень и серьезные.

Вот мы и пришли к более практичным ответам по защите контента. К ловле блох можно добавить и слонов и вирусов. о которых Вы из скромности не упомянули.

Так что топик стартер:

Защита контента ЕСТЬ в природе!!!

MoMM:
Смысл приема в том, чтобы внести такое число искажений, ошибок и опечаток

Ну почему же только опечяток и искажений? Соответствующий анализ показывает, что как раз не ошибки и не опечятки будут здесь более эффективны.

Всего: 982