G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
oleg1979:
Начитался на ночь гляда умных статей с РОМИРов.

РОМИП, а не РОМИР, есличо. :)

oleg1979:
1. Правильно ли я понимаю, что поскольку релевантность документа складывается из веса всех слов в него входящих, то в документ имеет смысл вводить больше редкоупотребляемых слов, т.к. они имеют бОльший вес? Сомнение здесь в том что редкость слов в документе какбэ мало коррелируема с запросом пользователя.

Не правильно. Во-первых, ни в одной публикации РОМИПа вы не найдете формул для расчета релевантности, которые бы учитывали слова, не входящие в запрос. Т.е. классические факторы ранжирования, построенные на BM25 не учтут ваши редкие слова.

С другой стороны - у поисковиков (Яндекса и Гугла) есть и иные факторы и фильтры, которые могут и учесть редкие. Причем учесть в минус. Такие факторы и фильтры я описывать не буду, но могу дать рекомендацию - пишите тексты простыми словами, и не очень длинными предложениями. :)

oleg1979:
2. Прочитал про некое магическое число 7, которое ессно может изменяться - число вхождений запроса в документ. Но мягко сказать не до конца понял идею автора до конца:( Правильно ли я понимаю, что есть некое число вхождений слов запроса в документ, превышение которого начинает снижать вес самих вхождений? Т.е. если 6 вхождений - вес 6, для 7 - 7, а если 8 - то уже 6 (снижение)?

Не правильно. Корень из частоты слова в то время не должен был превышать 7, а не сама частотность. Если корень 7, то слов, как вы могли бы и сами догадаться - 49. :)

Это древний эксперимент, сейчас эти знания бесполезны, т.к. не работают. Зря тратили время. :)

oleg1979:
3. Кто может объяснить что такое кучность слов запроса в документе и как она влияет на релевантность документа?

Я могу объяснить на пальцАх. Вот если в вашем тексте встречаются какие-то слова запроса какое-то кол-во раз, то чем больше эти "встречи" в одной кучке, тем фактор кучности будет выше. :)

Но, лепя слова запроса в кучку, не следует забывать о фильтрах на сеопереоптимизированность текста. ;)

oleg1979:
Например, вот.
Цитата оттуда: Mprox(q,d) – вклад «кучности» [3] документа;

О, кто-то прочел мою статью и как всегда ничего не понял. :)

Удобнее читать в хтмле, тут.

webistin:
У кого есть опыт?
Оценить затраты хотелось бы. На программирование и железо.

По русскоязычному вебу можно взять Яндекс.Сервер, по бусурманскому - Lucene. Мультисайтовые и нормально работают, в отличие от многих других платных или бесплатных поделок.

Упомянутый выше http://www.dataparksearch.org/ проще в плане саппорта, т.к. автор русскоязычный и отвечает на вопросы (dp-maxime).

Программирование не нужно, достаточно опытного админа для установки по инструкциям. По железу могу только сказать, что индексация 5М документов с локального харда у Яндекс.Сервера занимает меньше 2-х часов на современном компе под виндой.

Nicola:
Вообще витальников обычно 2.
А вот если мы говорим про один, то скорее всего наверное навигационник. Т.к. для навигациооного запроса - есть один ответ, в то время, как для витального запроса - документов обычно два. :)

Сложно сказать, как оно в среднем, общей статистики же нет. Когда были доступны данные с релевантностями через различные дырки, у меня сложилось впечатление, что чаще витальный один, а не два. Но я точно не считал, может и не прав. Причем не все витальные были очевидны. Например по запросу банковские информационные системы сайт bis.ru был витальным, релевантность 4+. Скорее всего и сейчас он витальный. :)

Yagor:
1. Моя специализация - информационный поиск, я не занимаюсь SEO.

Покупая при этом ссылки?

Yagor:
2. Читать лекции Расковалова я отсылал вас, не передёргивайте.

Вы назвали их любопытными, хотя для специалистов по информационному поиску они банальны, все это давно известно, ничего нового Ден не сказал.

Yagor:
3. Потрудитесь привести фрагмент, в котором якобы допущена ошибка.

Так в том-то и дело, что ни одного внятного аргумента Вы не привели, кроме забавных букв про среднее. При этом раздавая ярлыки "бред", "трэш" и "лженаука". :)

Yagor:
4. Не здесь и тем более не с вами обсуждать научные работы - к науке вы отношения не имеете.

Ну вот опять. Я же Вам убедительно показал - мои результаты получают хорошие оценки у независимых авторитетных экспертов. Все остальные результаты из научных публикаций в журналах - верифицируемы, формулы даны, коллекции документов доступны. Что еще по Вашему нужно, чтобы иметь отношение к науке? :D

Я Вам предъявил достаточно доказательств того, что Вы ошиблись. А вот имеете ли отношение к науке Вы, чтобы иметь право оценивать работы других - мы так и не узнали. Есть подозрение, что пока не имеете.

Yagor:
Дискуссия с вами закрыта.

Она не будет закрыта, пока Вы не прекратите высказывать ничем не подкрепленные обвинения в мой адрес.

Webit:
Не подскажете нам хотя бы пяток конкурентных запросов, продвинутых Вами? 😂

Webit, мериться пиписьками с виртуалами я не буду, извините.

Webit:
Я правильно понимаю, что мой вопрос проигнорирован, и теперь пишутся тонны килознаков, чтобы его замылить?

Не правильно, я его прошляпил, прошу пардону. :)

Webit:
Причем тут кнопка "Бабло"? Вопрос в том, эффективней ли макс пульта+ или пульта. Потому что многие думают - что это одно и то же, по крайней мере по эффективности. Так вернете деньги, если ваш Сеопульт Макс будет такой же, как сеопульт+ или простой? А почему нет? Бабло не ваше, но разработчик то вы, и подписались вы.

Это не одно и тоже, в Максе производится гораздо больше работ над ссылочным множеством. По эффективности - пока есть только данные экспериментов, эксперимент показал замечательную эффективность. Какова будет эффективность Макса на больших объемах запросов - пока не знает никто. Я думаю, что она будет явно выше Сеопульт+. Но статистики пока нет, технология только-только запустилась.

Что касается гарантий улучшения позиций с возвратом денег, то ее пока не сделал ни один агрегатор для своих вип-тарифов. Потому что гарантия в данном случае равносильна кнопке бабло, а кнопка куда-то потерялась. Вы еще с вебмастеров на Сапе потребуйте возврат денег, если Ваш документ не выйдет в топ.

Yagor, всё Ваше бодрое поливание говном своих оппонентов строится на утверждении "я занимаюсь математикой (в т.ч. информационным поиском) и сео на уровне супер-профи, поэтому мои утверждения - чистая истина, не требующая доказательств".

На самом деле Ваш уровень в данных дисциплинах пока низкий. В математике вы банально прокололись, перепутав распределение со средним значением, в информационном поиске для Вас откровением стали лекции Расковалова для студентов, в сео Вы не смогли верно оценить мощность множества урлов, потому что никогда не сталкивались с серьезными сео-задачами. Вы пока новичок, поэтому не стоит изображать из себя специалиста. Из Ваших постов ведь все сразу видно. :)

Я выше несколько раз просил Вас продемонстрировать Ваши научные труды, которых еще нет. Но это не беда. Приезжайте на следующей неделе в Воронеж, на научную конференцию RCDL, заодно и мой доклад послушаете. Если не побоитесь подойти к гудману - получите зачетные темы для убойного дисера, можно даже не одну. :)

Yagor:
К сожалению, сегодня её пропускают ото всех, и вы тому пример...

Такие утверждения требуют аргументов. Которых у Вас нет, ни одного. Вы на последних страницах этой темы 100500 раз заявили, что мои результаты - лженаука, ничем это не подкрепив. Сначала было смешно, теперь уже нет, одна и та же никчемная мантра от студента. :)

Yagor:
Опа... )) Вот про Романа только не надо, с этим человеком я хорошо знаком лично.

Что "не надо"? Не надо было ему оценивать мои результаты, чтобы у Яндекса не было достойных конкурентов на РОМИПе? :D

Это кстати было сделано, но позже и хитрее - в 2011-м году РОМИП по-тихому отменили, а в 2011-м он уже будет без поисковых дорожек. :D

Yagor:
Да, да, методы столь революционны, а Яндексом так востребованы, что пришлось их впаривать клиентам сеопульт.

Нет, Вы просто не догоняете. Революционность не вписывается в старую архитектуру, а большие перемены никогда не даются легко. Что касается Сеопульта, то это отдельная интересная задача, за ее решение мы взялись именно ввиду ее нестандартности. Бабло с Сеопультом было вторично, с Яндексом - оно вообще не интересно. :)

Yagor:
Что-то мне подсказывает, что представлений об архитектуре поиска Яндекса у вас ещё меньше, чем об оптимизации.... ))))

Убейте это "что-то" в зародыше, оно косячит. :D

Yagor:
Я просто перестану уважать Яндекс, когда они начнут людям с улицы сливать внутреннюю информацию.

Можете начинать, время пришло.

Yagor:
вы сейчас попытались свалить?

Я-то как раз аргументирую свои ответы, Вы же ни на один вопрос не ответили и ни одного из своих борзых утверждений не подкрепили аргументами. Пытаетесь сыграть в одну калитку, но для этого у вас авторитета не хватит, откуда ему взяться у плохо усвоившего материал студента?

Yagor:
Ещё раз.

Моя точка зрения на происходящее.
Я считаю абсолютно неприемлемым и аморальным вводить пользователей сервиса в заблуждение, беря дополнительные 10% буквально за воздух. Происходящее граничит с мошенничеством...

Почему за воздух? Я более-менее в курсе всех тегхологий у всех агрегаторов и могу сказать, что по себестоимости Макс - самая затратная из них. Рентабельность там по меркам отрасли вообще никакая. Так что эти деньги уходят не в карманы владельцев Сеопульта. Будет ли эффективность Макса на объемах агрегатора такой же, как в проведенном эксперименте - ну вряд ли, я не верю, что 100% запросов выведется влет. Но эффективность должна быть явно выше, чем у других технологий, я уверен. Надеюсь, что через 4-6 месяцев Сеопульт выдаст статистику по Максу и подтвердит или опровергнет данное высказывание.

Webit:
G00DMAN, а как думаете, если взять, допустим, 10 одинаковых новых сайтов (про зеркальщика промолчим - много способов) по нч, 10 по сч и 10 по вч на каждый способ (сеопульт, плюс, макс), то кто выиграет? А если будет некоррелирующий разброс - деньги пользователям вместе с евдокимовым вернете? С компенсацией? И если по максу - за небольшое время, то по пульту+ - за все годы?

По коммерческим ВЧ я думаю, что все попадут под фильтры, от жадности. По НЧ и СЧ - думаю, что выиграет макс.

К деньгам Сеопульта я отношения не имею, так что не верну. :)

Вы хотите "кнопку бабло" с гарантиями? Ее нет и уже не будет. Времена халявы в отрасли прошли.

В сео от всех договоров с гарантиями плохо пахнет, кстати.

Yagor:
:) Ну, ну... Не вам мне петь, какой трешак сейчас защищают и что пропускают в ВАКовские журналы...

Вы опять попутали. Херню конечно же могут пропустить, но от своих. Мы же ни с какими официальными научными коллективами не связаны, в IR пришли "с улицы". Поэтому к нашим работам придираются на самом жестоком уровне.

Ну и опять же - я писал о независимых результатах. Наши исследования на РОМИПе были оценены асессорами под руководством Романа Поборчего (заодно узнайте, кто это, Вы же "занимаетесь" информационным поиском). Мы получили лучшие оценки, в том числе по pFound. Можно сколько угодно кричать про "трэш" и "бред", но против оценок не попрешь. Ваши крики конкретно доставляют. :D

Yagor:
Да, да, ввалить ещё вам бабла...

Почему мне? Мне от Вас не нужно ничего. :)

Yagor:
Что-то мне подсказывает, что встретив Расковалова, вы ещё неделю руку мыть не будете, рассказывая всем, что имели честь... :)

Я с Деном знаком и неоднократно общался. Наверняка буду общаться еще, потому что у нас есть революционные методы для IR, а у Яндекса - потребность в таких методах. Пока проблемы лишь в архитектуре поиска, для применения моих методов многое нужно менять, поэтому все не просто. :)

Yagor:
Вообще, я уже порядком устал от вашего пафосного бреда.
Были бы моим студентом - лично решил бы вопрос с деканом об отчислении.

Вы сначала доучитесь, усвойте хотя бы азы. Ну и не забывайте, что нести чушь можно лишь там, где ее благодарно схавают. На серче у Вас не вышло, плохо оценили ситуацию. Впредь учитесь думать, прежде чем писать. :)

mr_krabs:
G00DMAN, не могли бы вы в двух словах на пальцах публике объяснить что к чему? думаю все будут благодарны. в каких случаях использовать, может рекомендации какие либо

Так а описание на сайте Сеопульта чем не устраивает? Они вроде все описали на пальцах.

Yagor:
Путаете тёплое с мягким. Псевдонаука - онаучивание бреда, в вашем случае.

Понятно. То есть аргументировать свои слова Вы не желаете. Типа "я сказал" достаточно? Только вот нет никакого "я" в Вашем случае, ваши домыслы нуба всех веселят, не более того. :)

Yagor:
С "прикольными пузамерками" вам семечками торговать возле метро.
Людей на деньги разводить подло. Совесть есть?

Это Вы о чем? Вы так и не въехали в суть, ввиду того, что не можете понять даже простой статьи. Этими пузомерками никто не торговал и не собирался, это условная эффективность донора, а не реальная. Мы нигде эффективность отдельного донора и не оценивали, попадание конкретной страницы в множество доноров по запросу для конкретного акцептора ничего не говорит о его эффективности для других акцепторов по тому же запросу.

Yagor:
Опа... То есть в статье есть, а отношения к ней не имеет - ну, я и говорил, не статьи а оливье.
И потом, раз сеопульт эффективность так и не посчитал, что же вы всё-таки, косноязыкие вы наши, пытаетесь продать?! ))))

Вы тупо не поняли статьи. А может и не читали. Эта условная эффективность приведена в статье потому, что многим хочется увидеть оценку каждого донора. Такой оценки данный метод не дает по понятным для специалистов причинам, он дает оценку всему множеству целиком. Но если кому-то хочется - можно организовать условную оценку, за бесплатно. И если у Сеопульта будет такое желание.

Если Вы с какого-то перепугу увидели где-то в статьях точные оценки эффективности отдельных доноров - перечитайте еще 10 раз, может тогда что-то сможете понять.

Yagor:
вопросы информационного поиска и свои работы я готов и рад обсуждать с профессионалами. Вы столь же далеки от науки, сколь я от сельского хозяйства.
Так что не сползайте с темы...

Правда? :D

При этом мои результаты в науке имеют хорошие независимые оценки, статьи по информационному поиску печатаются в научных журналах из списка ВАК.

Вы же, судя по Вашим забавным постам - недоучившийся студент или аспирант, который разбирается в математике примерно как свинья в апельсинах. Ни одного внятного аргумента Вы из своего юношеского моска не выжали, заодно перепутав распределение со средним значением. И в информационном поиске Вы вообще не шарите, для Вас даже лекции Расковалова были откровением. Ну и понятно, что никаких научных работ у Вас нет, одно пустозвонство.

Но это не беда. У Вас все впереди. Грызите гранит науки, авось что-то унылое и получится в итоге. А пока даже на унылого математика Вы не тянете.

Yagor:
Объясняю ещё раз, для бестолковых: Яндекс ранжирует по своим метрикам и алгоритмам, и любая оптимизация возможна только на основе его "представлений о прекрасном". Очевидно.
Остальное - от лукавого.

Такая "очевидность" доступна только полному нубу. :D

Yagor:
Гы-гы... :) Насколько я уже понимаю ситуацию, вам неизвестно ни черта, даже простейших принципов оптимизации...

Да уж... Куда уж нам, сирым... :D

Yagor:
:) Судя по формату публикаций вы сделаете всё возможное, чтобы кто-то не копнул эту пахнущую кучу глубже... Я не стану ковыряться в этом. Побрезгаю.
А про "устойчивые паттерны" пенсионерам возле входа в метро будете рассказывать.
У пожилых порог критического восприятия понижен.

Однако, наш метод реализован в Сеопульте и каждый может его проверить на практике. Ваши же изливания говна - ни о чем. Ни единого аргумента, кроме "не верю!" Не верите - проверьте на большом пуле запросов. Потом сможете помахать хоть какими-то аргУментами, а не пукать в лужу, как сейчас.

Yagor:
Выкачали рунет?! )))
"Не знайка на Луне" Носова просто отдыхает... )

Не рунет, но порядок похож. Понятно, что Вас это удивляет, Вы же не шарите в технологиях информационного поиска. Попробуйте задуматься о том, сколько всего парсит сео-отрасль. Я Вас наверняка еще раз удивлю, если скажу, что на пиках сео-запросы составляют до 30% от всех запросов в Яндекс. :D

Yagor:
Ладно, вы мне откровенно надоели своим ростовским пафосом. Не посещайте мероприятия с Расковаловым, там вы будете бледны и растеряны.

Я посещал мероприятия, на которых докладчиком был Расковалов. Но это были конференции интернетчиков и Ден выступал для вебмастеров и оптимизаторов. Теперь вот он и перед студентами выступает, рассказывает основы. Что касается научных конференций, то на них Расковалова среди докладчиков я пока не заметил, не с чем ему выступать. Хотя потенциал у него приличный, все еще может измениться, я верю в Дена и желаю ему успехов. На сегодняшний день ситуация обратная - Расковалов посещает научные конференции, на которых выступаю я и задает вопросы из зала. Потому что ему интересно.

Всего: 1960