Поясните, плиз, шо це таке: склейка и чем ее закусывают? :D
Учитывает! :D
Как народ и аддурелку 🚬
Тут писать (предполагать) можно долго.
Все-таки предполагаемая зависимость логарифмическая и прочувствовать ее можно только сравнив по крупному, но факторов около десятка-двух десятков, поди отдели множитель 1/2 от мифического вица, тошноты, числа беков и хавбеков.
Например, на сайте1 16 страниц, на сайте2 4096
На каждом по 4 найденных страницы.
Коэффициент ослабления (мифический idf)
сайт1: (4-2)/4=1/2
сайт2: (12-2)/12=5/6
Так что можно не заморачиваться по крупному 🚬
Предложения потому что в них поиск яндекс скорее ведет и экономит вычисления, (хранив id предложения) делая один раз сразу для всех предложений дублей.
Наиболее контрастный сайт "помогает" наиболее контрастной странице по заданному запросу.
Вот чешу репу, насколько наша логика, могла бы состыковаться с Яндексом. Вдохновляет, что эта логика серьезно поимогает бороться с дорвеями, как со стороны tf (нормировка, тошнота), так и со стороны idf 🚬
Давайте прикинем, зачем нам 10 релевантных страниц по одному и тому же слову "рыба"? Или для примера "пластиковые окна"... Какая то из них должна быть главнее (корнем, оглавлением,...). На нее будут стоять нужные ссылки, внутренние и внешние. Если мы размажем все ссылки по равноценным страницам, то проиграем.
Яндекс ведь ищет документ (как это признается). Если бы его задача была: найти САЙТ по рыбе, то это было бы совсем другое дело и другой поиск.
А так как Яндекс еще убегает от контекста документа в пользу контекста предложений, то возникает ассоциация, что яндекс ищет скорее наиболее подходящую коллекцию предложений, находящихся на одной странице (страница - коллекция предложений как бы, взамен коллекции документов).
В общем наиболее контрастная страница по ключевому слову из наиболее контрастных документов по этому же ключевику на сайте.
Страница контрастная потому, что частота слов там повышена по сранению с другими словами. И наиболее контрастный сайт по концентрации ключевиков только на очень малом количестве страниц.
А верить и не надо. А просто подумал вслух :) А на самом деле надо опыт поставить и проверить. А вот ЛОГИКА есть, особенно если хитрых дорвейщиков расплодится немеряно. Можно и к первооткрывателям tfidf за логикой обратиться, а то их умные люди цитируют, в том числе создатели алгоритма яндекса, а мы все на уровне почесать за ухом себя ведем.
Так ориентировочно насколько влияет можно из ИРбиса взять, а потом проверить :)
(логарифм двоичный от доков на сайте - логарифм двоичный от найденных)/(логарифм двоичный от доков на сайте)
Это коэффициент уменьшения tf.
Почему нонсенс? Представьте на сайте 1000 доков с одним словом "рыба" на каждой странице. А на другом 1000 доков без слова рыба и один док со 100 словами рыба. Кто более истории ценен?
Вполне вероятно, что так делать бессмыссленно, если нужны топовые позиции в выдаче. А вот УМЕНЬШИТЬ число таких страниц - это вариант.
Но с другой строны надо собирать низкочастотники, поэтому число страниц на сайте вообще-то надо делать большим и меню не сквозное, а в виде дерева. Хотя и здесь не все так гладко. Говорил же Сегалович, что релевантность размазывется по многим признакам. Так что нос вытащишь, хвост увязнет. Заточишь сайт под одно, зато другое упустишь. Да и влияние idf там логарифмическое а не линейное, да еще смотришь с каким-нить "корешком" с показателем между 1/2 и 1/3 (см. статью Сегаловича на ромипе).
мне по человечески иногда хочется качества :)
Это как? Лучше одна девушка, добрая и любящая тебя, или 10 злых стерв?
Это учет того, что на этом сайте вес слова "рыба" обесценивается для наиболее релевантной страницы (становится малоинформативным), но не до нуля! КОНТРАСТНОСТЬ слова рыба становится маленькой.
Вообще, не замечали, что иногда в топе появляются доки с каталогов? С какой стати? Или с форумов? Опять таки, почему?
В теории и практике поиска документов в коллекции, например в каталогах (Яндекса), новостях, маркете, сайте есть такой параметр как idf (inverse document frequency). И он считается не менее важным чем tf (term frequency)/
А классическая теория так и называется tf-idf
см например ссылки в :
http://www.yandex.ru/yandsearch?text=tfidf+%EF%EE%EB%ED%EE%F2%E5%EA%F1%F2%EE%E2%FB%E9+%D1%E5%E3%E0%EB%EE%E2%E8%F7+%CC%E0%F1%EB%EE%E2&stype=www
http://company.yandex.ru/articles/romip2004.xml
Чем меньше в процентах найдено документов в коллекции (сайте, например) тем более значима найденная страница (совсем обратное тому, что кто-то любит большие сайты). От Яндекса скорее можно ожидать, что он любит малый процент найденных на сайте страниц.
И то, что яндекс ее имеет в алгоритме, очень и очень вероятно. Вопрос скорее в том, какую нормировку он делает для idf сайта. 🚬
Эта подсветка когда-то привела к разгадке переколдовки.
Это намек на внутреннюю организацию данных в базах Яндекса.
Вроде sg одинаково для всех доков при нажатии еще с сайта.
Похоже, надо ждать усложнения в алгоритме.
Это было в годовщину ГКЧП, 19 августа? :
http://www.yandex.ru/yandsearch?text=%2Bdsn+%26+%2Bsh+%26+%2Bsg&stype=www
Вот уже и в ссылке стало не 16, а 17 первых слов учитываться.
Вполне может окупиться за счет прихода в компанию такого талантливого человека, как Euhenio ;) , независимо от самого проекта по аналитике.
Наиболее полезен он будет как раз самому Euhenio, и мне кажется (кстати не только мне :) ) вполне справедливо, что фирма оплатит бартером его труды и стремление к счастью. Надо только порадоваться за хорошего человека.
Тут есть мнение, что через достаточно короткое время выяснится справедливость Wolf-а в том, что существуют более точечные и более релевантные решения для сервиса СЕО. Так что сама идея тратить серьезные ресурсы сойдет на нет.
Но есть еще такая штука как реклама и закон крысиного вожака, когда все тупо идут за его дудочкой прямо в море, подчиняясь общему психозу. Если эта идея имеется в виду, то она тоже с успехом может сработать, как разные МММ, гербалайф, МЛМ совсем недавно. Правда, от нее нам проку будет, точнее не будет.
Опыт советской жизни показывает, что цифры по срокам, которые дает программист или Министр того программиста, можно смело умножать на 10. Для более трезвой оценки.
Можно от души пожелать Euhenio успеть сделать как можно больше, пока бюджеты на исследования не урежут раз в 10!
Вот мы и пришли к более практичным ответам по защите контента. К ловле блох можно добавить и слонов и вирусов. о которых Вы из скромности не упомянули.
Так что топик стартер:
Защита контента ЕСТЬ в природе!!!
Ну почему же только опечяток и искажений? Соответствующий анализ показывает, что как раз не ошибки и не опечятки будут здесь более эффективны.