РОМИП, а не РОМИР, есличо. :)
Не правильно. Во-первых, ни в одной публикации РОМИПа вы не найдете формул для расчета релевантности, которые бы учитывали слова, не входящие в запрос. Т.е. классические факторы ранжирования, построенные на BM25 не учтут ваши редкие слова.
С другой стороны - у поисковиков (Яндекса и Гугла) есть и иные факторы и фильтры, которые могут и учесть редкие. Причем учесть в минус. Такие факторы и фильтры я описывать не буду, но могу дать рекомендацию - пишите тексты простыми словами, и не очень длинными предложениями. :)
Не правильно. Корень из частоты слова в то время не должен был превышать 7, а не сама частотность. Если корень 7, то слов, как вы могли бы и сами догадаться - 49. :)
Это древний эксперимент, сейчас эти знания бесполезны, т.к. не работают. Зря тратили время. :)
Я могу объяснить на пальцАх. Вот если в вашем тексте встречаются какие-то слова запроса какое-то кол-во раз, то чем больше эти "встречи" в одной кучке, тем фактор кучности будет выше. :)
Но, лепя слова запроса в кучку, не следует забывать о фильтрах на сеопереоптимизированность текста. ;)
О, кто-то прочел мою статью и как всегда ничего не понял. :)
Удобнее читать в хтмле, тут.
По русскоязычному вебу можно взять Яндекс.Сервер, по бусурманскому - Lucene. Мультисайтовые и нормально работают, в отличие от многих других платных или бесплатных поделок.
Упомянутый выше http://www.dataparksearch.org/ проще в плане саппорта, т.к. автор русскоязычный и отвечает на вопросы (dp-maxime).
Программирование не нужно, достаточно опытного админа для установки по инструкциям. По железу могу только сказать, что индексация 5М документов с локального харда у Яндекс.Сервера занимает меньше 2-х часов на современном компе под виндой.
Сложно сказать, как оно в среднем, общей статистики же нет. Когда были доступны данные с релевантностями через различные дырки, у меня сложилось впечатление, что чаще витальный один, а не два. Но я точно не считал, может и не прав. Причем не все витальные были очевидны. Например по запросу банковские информационные системы сайт bis.ru был витальным, релевантность 4+. Скорее всего и сейчас он витальный. :)
Покупая при этом ссылки?
Вы назвали их любопытными, хотя для специалистов по информационному поиску они банальны, все это давно известно, ничего нового Ден не сказал.
Так в том-то и дело, что ни одного внятного аргумента Вы не привели, кроме забавных букв про среднее. При этом раздавая ярлыки "бред", "трэш" и "лженаука". :)
Ну вот опять. Я же Вам убедительно показал - мои результаты получают хорошие оценки у независимых авторитетных экспертов. Все остальные результаты из научных публикаций в журналах - верифицируемы, формулы даны, коллекции документов доступны. Что еще по Вашему нужно, чтобы иметь отношение к науке? :D
Я Вам предъявил достаточно доказательств того, что Вы ошиблись. А вот имеете ли отношение к науке Вы, чтобы иметь право оценивать работы других - мы так и не узнали. Есть подозрение, что пока не имеете.
Она не будет закрыта, пока Вы не прекратите высказывать ничем не подкрепленные обвинения в мой адрес.
Webit, мериться пиписьками с виртуалами я не буду, извините.
Не правильно, я его прошляпил, прошу пардону. :)
Это не одно и тоже, в Максе производится гораздо больше работ над ссылочным множеством. По эффективности - пока есть только данные экспериментов, эксперимент показал замечательную эффективность. Какова будет эффективность Макса на больших объемах запросов - пока не знает никто. Я думаю, что она будет явно выше Сеопульт+. Но статистики пока нет, технология только-только запустилась.
Что касается гарантий улучшения позиций с возвратом денег, то ее пока не сделал ни один агрегатор для своих вип-тарифов. Потому что гарантия в данном случае равносильна кнопке бабло, а кнопка куда-то потерялась. Вы еще с вебмастеров на Сапе потребуйте возврат денег, если Ваш документ не выйдет в топ.
Yagor, всё Ваше бодрое поливание говном своих оппонентов строится на утверждении "я занимаюсь математикой (в т.ч. информационным поиском) и сео на уровне супер-профи, поэтому мои утверждения - чистая истина, не требующая доказательств".
На самом деле Ваш уровень в данных дисциплинах пока низкий. В математике вы банально прокололись, перепутав распределение со средним значением, в информационном поиске для Вас откровением стали лекции Расковалова для студентов, в сео Вы не смогли верно оценить мощность множества урлов, потому что никогда не сталкивались с серьезными сео-задачами. Вы пока новичок, поэтому не стоит изображать из себя специалиста. Из Ваших постов ведь все сразу видно. :)
Я выше несколько раз просил Вас продемонстрировать Ваши научные труды, которых еще нет. Но это не беда. Приезжайте на следующей неделе в Воронеж, на научную конференцию RCDL, заодно и мой доклад послушаете. Если не побоитесь подойти к гудману - получите зачетные темы для убойного дисера, можно даже не одну. :)
Такие утверждения требуют аргументов. Которых у Вас нет, ни одного. Вы на последних страницах этой темы 100500 раз заявили, что мои результаты - лженаука, ничем это не подкрепив. Сначала было смешно, теперь уже нет, одна и та же никчемная мантра от студента. :)
Что "не надо"? Не надо было ему оценивать мои результаты, чтобы у Яндекса не было достойных конкурентов на РОМИПе? :D
Это кстати было сделано, но позже и хитрее - в 2011-м году РОМИП по-тихому отменили, а в 2011-м он уже будет без поисковых дорожек. :D
Нет, Вы просто не догоняете. Революционность не вписывается в старую архитектуру, а большие перемены никогда не даются легко. Что касается Сеопульта, то это отдельная интересная задача, за ее решение мы взялись именно ввиду ее нестандартности. Бабло с Сеопультом было вторично, с Яндексом - оно вообще не интересно. :)
Убейте это "что-то" в зародыше, оно косячит. :D
Можете начинать, время пришло.
Я-то как раз аргументирую свои ответы, Вы же ни на один вопрос не ответили и ни одного из своих борзых утверждений не подкрепили аргументами. Пытаетесь сыграть в одну калитку, но для этого у вас авторитета не хватит, откуда ему взяться у плохо усвоившего материал студента?
Почему за воздух? Я более-менее в курсе всех тегхологий у всех агрегаторов и могу сказать, что по себестоимости Макс - самая затратная из них. Рентабельность там по меркам отрасли вообще никакая. Так что эти деньги уходят не в карманы владельцев Сеопульта. Будет ли эффективность Макса на объемах агрегатора такой же, как в проведенном эксперименте - ну вряд ли, я не верю, что 100% запросов выведется влет. Но эффективность должна быть явно выше, чем у других технологий, я уверен. Надеюсь, что через 4-6 месяцев Сеопульт выдаст статистику по Максу и подтвердит или опровергнет данное высказывание.
По коммерческим ВЧ я думаю, что все попадут под фильтры, от жадности. По НЧ и СЧ - думаю, что выиграет макс.
К деньгам Сеопульта я отношения не имею, так что не верну. :)
Вы хотите "кнопку бабло" с гарантиями? Ее нет и уже не будет. Времена халявы в отрасли прошли.
В сео от всех договоров с гарантиями плохо пахнет, кстати.
Вы опять попутали. Херню конечно же могут пропустить, но от своих. Мы же ни с какими официальными научными коллективами не связаны, в IR пришли "с улицы". Поэтому к нашим работам придираются на самом жестоком уровне.
Ну и опять же - я писал о независимых результатах. Наши исследования на РОМИПе были оценены асессорами под руководством Романа Поборчего (заодно узнайте, кто это, Вы же "занимаетесь" информационным поиском). Мы получили лучшие оценки, в том числе по pFound. Можно сколько угодно кричать про "трэш" и "бред", но против оценок не попрешь. Ваши крики конкретно доставляют. :D
Почему мне? Мне от Вас не нужно ничего. :)
Я с Деном знаком и неоднократно общался. Наверняка буду общаться еще, потому что у нас есть революционные методы для IR, а у Яндекса - потребность в таких методах. Пока проблемы лишь в архитектуре поиска, для применения моих методов многое нужно менять, поэтому все не просто. :)
Вы сначала доучитесь, усвойте хотя бы азы. Ну и не забывайте, что нести чушь можно лишь там, где ее благодарно схавают. На серче у Вас не вышло, плохо оценили ситуацию. Впредь учитесь думать, прежде чем писать. :)
Так а описание на сайте Сеопульта чем не устраивает? Они вроде все описали на пальцах.
Понятно. То есть аргументировать свои слова Вы не желаете. Типа "я сказал" достаточно? Только вот нет никакого "я" в Вашем случае, ваши домыслы нуба всех веселят, не более того. :)
Это Вы о чем? Вы так и не въехали в суть, ввиду того, что не можете понять даже простой статьи. Этими пузомерками никто не торговал и не собирался, это условная эффективность донора, а не реальная. Мы нигде эффективность отдельного донора и не оценивали, попадание конкретной страницы в множество доноров по запросу для конкретного акцептора ничего не говорит о его эффективности для других акцепторов по тому же запросу.
Вы тупо не поняли статьи. А может и не читали. Эта условная эффективность приведена в статье потому, что многим хочется увидеть оценку каждого донора. Такой оценки данный метод не дает по понятным для специалистов причинам, он дает оценку всему множеству целиком. Но если кому-то хочется - можно организовать условную оценку, за бесплатно. И если у Сеопульта будет такое желание.
Если Вы с какого-то перепугу увидели где-то в статьях точные оценки эффективности отдельных доноров - перечитайте еще 10 раз, может тогда что-то сможете понять.
Правда? :D
При этом мои результаты в науке имеют хорошие независимые оценки, статьи по информационному поиску печатаются в научных журналах из списка ВАК.
Вы же, судя по Вашим забавным постам - недоучившийся студент или аспирант, который разбирается в математике примерно как свинья в апельсинах. Ни одного внятного аргумента Вы из своего юношеского моска не выжали, заодно перепутав распределение со средним значением. И в информационном поиске Вы вообще не шарите, для Вас даже лекции Расковалова были откровением. Ну и понятно, что никаких научных работ у Вас нет, одно пустозвонство.
Но это не беда. У Вас все впереди. Грызите гранит науки, авось что-то унылое и получится в итоге. А пока даже на унылого математика Вы не тянете.
Такая "очевидность" доступна только полному нубу. :D
Да уж... Куда уж нам, сирым... :D
Однако, наш метод реализован в Сеопульте и каждый может его проверить на практике. Ваши же изливания говна - ни о чем. Ни единого аргумента, кроме "не верю!" Не верите - проверьте на большом пуле запросов. Потом сможете помахать хоть какими-то аргУментами, а не пукать в лужу, как сейчас.
Не рунет, но порядок похож. Понятно, что Вас это удивляет, Вы же не шарите в технологиях информационного поиска. Попробуйте задуматься о том, сколько всего парсит сео-отрасль. Я Вас наверняка еще раз удивлю, если скажу, что на пиках сео-запросы составляют до 30% от всех запросов в Яндекс. :D
Я посещал мероприятия, на которых докладчиком был Расковалов. Но это были конференции интернетчиков и Ден выступал для вебмастеров и оптимизаторов. Теперь вот он и перед студентами выступает, рассказывает основы. Что касается научных конференций, то на них Расковалова среди докладчиков я пока не заметил, не с чем ему выступать. Хотя потенциал у него приличный, все еще может измениться, я верю в Дена и желаю ему успехов. На сегодняшний день ситуация обратная - Расковалов посещает научные конференции, на которых выступаю я и задает вопросы из зала. Потому что ему интересно.