Yagor

Yagor
Рейтинг
23
Регистрация
21.09.2011
Должность
Преподаю информационный поиск и кластеризацию данных
Интересы
информационный поиск, статистика

Да это нормальное состояние вещей, у Яндекса почти все сервисы периодически выдают неадекватные данные.

G00DMAN:

...
При этом мои результаты в науке имеют хорошие независимые оценки, статьи по информационному поиску печатаются в научных журналах из списка ВАК.

:) Ну, ну... Не вам мне петь, какой трешак сейчас защищают и что пропускают в ВАКовские журналы...

...

Однако, наш метод реализован в Сеопульте и каждый может его проверить на практике.

Да, да, ввалить ещё вам бабла...

...

...Хотя потенциал у него приличный, все еще может измениться, я верю в Дена и желаю ему успехов. На сегодняшний день ситуация обратная - Расковалов посещает научные конференции, на которых выступаю я и задает вопросы из зала. Потому что ему интересно.

Что-то мне подсказывает, что встретив Расковалова, вы ещё неделю руку мыть не будете, рассказывая всем, что имели честь... :)

Yagor добавил 12.10.2011 в 14:27

G00DMAN:
Понятно. То есть аргументировать свои слова Вы не желаете. Типа "я сказал" достаточно? Только вот нет никакого "я" в Вашем случае, ваши домыслы нуба всех веселят, не более того.
...
:)него приличный, все еще может измениться, я верю в Дена и желаю ему успехов. На сегодняшний день ситуация обратная - Расковалов посещает научные конференции, на которых выступаю я и задает вопросы из зала. Потому что ему интересно.

Вообще, я уже порядком устал от вашего пафосного бреда.

Были бы моим студентом - лично решил бы вопрос с деканом об отчислении.

burunduk:
сынок, выкачай и удивись полученному результату
теоретеГ

P.S. блин, кто пустил школнеГа к взрослым дядям?

P.P.S. специально сейчас открыл один проект
запросов 226, анализируем ТОР100:
документов (уникальных URL) в выдаче - 8612
уникальных доменов - 3427

и это с учетом того что около 40 запросов информационные и вносят достаточно большой шум (увеличивают число уникальных документов и доменов)

по вашим подсчетам должно было быть как минимум 22600 уникальных документов

и что нам на это скажет "великий специалист по информационному поиску"? :)

Дружок, есть два обстоятельства:

- нагрузочная способность определяется всегда на пиковых объёмах модельных данных;

- довольно глупо приводить 1 пример в качестве репрезентативной выборки...

Yagor добавил 12.10.2011 в 13:28

mr_krabs:
Yagor, у тебя паранойя, где же психиатр бродит... очередной обиженный

G00DMAN, не могли бы вы в двух словах на пальцах публике объяснить что к чему? думаю все будут благодарны. в каких случаях использовать, может рекомендации какие либо

Ещё одна подставная петрушка...

Я смотрю, сеопульт поставил оболванивание людей на поток...

G00DMAN:
Про космические корабли не нужно. "Псевдо-", примененное к слову "наука", однозначно трактуется как "лже-". Покажите лживые утверждения в моих статьях.

Путаете тёплое с мягким. Псевдонаука - онаучивание бреда, в вашем случае.

Если Вы с какого-то перепугу решили, что формула в конце статьи является ее заключением, то либо Вы статью не читали, либо ничего не поняли. Попробую объяснить: эта формула дается уже после заключения, когда мы (для прикола) предлагаем метод для определения условной эффективности отдельного донора. Эффективность условная, она прокатит разве что как прикольная пузомерка,

С "прикольными пузамерками" вам семечками торговать возле метро.

Людей на деньги разводить подло. Совесть есть?

если в Сеопульте ее когда-нибудь посчитают. К самой статье эта формула не имеет отношения.

Опа... То есть в статье есть, а отношения к ней не имеет - ну, я и говорил, не статьи а оливье.

И потом, раз сеопульт эффективность так и не посчитал, что же вы всё-таки, косноязыкие вы наши, пытаетесь продать?! ))))

Ида - я выше задал вопрос: что Вы из себя представляете в IR? Вы отметили, что занимаетесь информационным поиском, в других постах уже неоднократно рассказали про своих студентов. Где Ваши труды? Неужели их нет? ;)
Смените тон, юноша.

Дружище, вопросы информационного поиска и свои работы я готов и рад обсуждать с профессионалами. Вы столь же далеки от науки, сколь я от сельского хозяйства.

Так что не сползайте с темы...

Наши метрики работают лучше, чем метрики Яндекса, поэтому мы их и используем.

Объясняю ещё раз, для бестолковых: Яндекс ранжирует по своим метрикам и алгоритмам, и любая оптимизация возможна только на основе его "представлений о прекрасном". Очевидно.

Остальное - от лукавого.

Хотя факторы Яндекса нам известны.

Гы-гы... :) Насколько я уже понимаю ситуацию, вам неизвестно ни черта, даже простейших принципов оптимизации...

Чтобы говорить о научной новизне, покажите для начала Ваши научные работы в IR, еще раз повторю. Продолжим после. :)

Дружище, не вам совать свой нос в науку. Торгуйте семечками.

Вы ведь не видели результатов. :D
Большая часть частотных паттернов осталась неизменной на протяжении 8-ми месяцев, пережив не только апдейты, но и пересчеты формулы матрикснета. :)

:) Судя по формату публикаций вы сделаете всё возможное, чтобы кто-то не копнул эту пахнущую кучу глубже... Я не стану ковыряться в этом. Побрезгаю.

А про "устойчивые паттерны" пенсионерам возле входа в метро будете рассказывать.

У пожилых порог критического восприятия понижен.

В среднем на топ-50 гораздо меньше доноров. И кто Вам сказал, что при расчете нужно что-то скачивать? Забавное предположение. Все заранее проиндексировано, построение паттерна занимает незначительное время. Нахождение нужных доноров - уже большее, в среднем около 2 секунд на запрос. Понятно, что для ВЧ/ВК время существенно больше.

Выкачали рунет?! )))

"Не знайка на Луне" Носова просто отдыхает... )

Расковалов прочитал простенькие лекции для студентов, рассказав об очевидных и известных вещах. Если для Вас это оказалось любопытным, то у Вас еще все впереди. ;)

Ладно, вы мне откровенно надоели своим ростовским пафосом. Не посещайте мероприятия с Расковаловым, там вы будете бледны и растеряны.

Yagor добавил 12.10.2011 в 12:02

euhenio:
-а почему тогда сеопульт пишет, что заказали?

и что было первично-то - заказ или свой интерес?

Первично было желание срубить бабла - основной инстинкт, так сказать.

А некий этот гудман, насколько я понимаю ситуацию, был выбран пультом в качестве авторитетной петрушки, типа волочковой в рекламе сникерса.

Yagor добавил 12.10.2011 в 12:04

burunduk:
вы где-то выше писали, что являетесь специалистом по информационному поиску, у меня вопрос: вы хоть что-то смогли найти, с такой арифметикой и с такими познаниями? 😂

Дружок, не напрягай свой мозг. Умножь на калькуляторе 100 * 100 000 и удивись.

Мир прекрасен... :)

G00DMAN:
Это я, есличо.

Ок, буду знать.

Подробнее про "псевдо" можете прокомментировать? :)

Да. Никаких промежуточных выкладок, аналитических зависимостей оценки эффективности, результатов вычислительных экспериментов и прочих фактических материалов, подтверждающих факт проведения работ и достигнутые результаты. Вместо этого словоблудие про космические корабли и большой театр + в конце, как чёрт из табакерки, тривиальная скопипастенная формула, не имеющая никакой научной новизны. С тем же успехом могли бы y(x)=sin(x) написать - содержательная часть писанины не изменилась бы...

Затем, чтобы получить нужный результат. Если Вам не понятен подход, примененный нами в данном случае, то ничего не поделаешь, сходите в школу. "Даже Яндекс" и "трешак" позабавили. Вы ведь не видели формул, но уже сделали вывод. А на основании чего и что Вы из себя представляете в IR, чтобы делать такие заключения вслепую? Я это спрашиваю по праву специалиста - наши метрики обыгрывают яндексовые на реальных тестах в рамках РОМИПа. А ваши? :D

Дружище, формулы (точнее, кракозябры, стилизованные под них) я видел, и каллиграфия вызвала возмущение. А РОМИП поминать не надо - там, как подсказывает google, вы парили почтенную публику на совершенно другую темы «Использование спектральных характеристик лексем для улучшения поисковых алгоритмов» и «Метод контекстно-зависимого аннотирования документов на основе спектральных оценок лексем».

И какого вы втюхиваете ваши метрики, если ранжирует Яндекс и по своим?!... :)

Вы спутали распределение со средним значением. Вам в школу, юноша, за парту.

Дружище, не рефлексируйте. Простым же русским языком написано: ср. знач. - то есть математическое ожидание параметра - достижимо при чрезвычайно большом многообразии комбинаций отдельных значений.

Очевидно.

Откуда вывод, что не отражает? В нашем случае показано обратное, результаты экспериментов видели в статьях? :)

Из основ математической статистики, дружище.

Что за "пресловутая Мера Эффективности, о которой столько говорится"? Приведите несколько цитат про эту меру. Целью экспериментов был вывод документов в топ, вывелось 100%. При этом эффективность Вам не понятна?

Например, "1. Эффективность множества доноров"... ))

Но вы же не продвигали сайты, по которым якобы что-то оценивали... )))

О каком ещё достижении ТОП-а вы грузите?!

Еще раз - будьте добры поподробнее про псевдо. :D
И что значит "стыренная формула невязки"? Невязка считается стандартным методом, что в нем стырено? :D

Значит это ровно то, что никакой научной новизны в ваших кракозябрах не обнаружено. Фрагментарные заимствования - как салат оливье.

Очередной апдейт, и что дальше? Частотные паттерны достаточно устойчивы к апдейтам, некоторые прожили 8 месяцев в этих апдейтах без изменений. А топ менялся конечно, и не раз. :)
Почему пропала? :D

Частотные паттерны определяются алгоритмом ранжирования - очевидно - и не могут не измениться при изменении алгоритма. Не обманывайте людей. Грешно это.

И развеселил старика гудмана, молодец. :)
Оказалось пуком в лужу. Может там и плавал чей-то глаз, хз.

... ой, не звените бубенцами, возраст ваш уже не тот.

Yagor добавил 11.10.2011 в 19:12

burunduk:
а что по вашему, тестовые простановки необходимо делать по всему массиву доступных доноров? 😮

Ну, давайте, немножко позанимаемся арифметикой...

ТОП-50, у каждого сайта из выдачи, предположим, 2 000 доноров - итого 100 000 доноров.

Продвигаемый сайт двигается, например, по 100 запросам (цифры все средние) - итого 100 * 100 000 = 10 млн. доноров.

Каждый донор измеряется по 184 параметрам - то есть 184 * 10 млн. = 1 млрд. 840 млн. параметров, для которых надо выкачать страницы из интернета и обмерить. И это всё только для ОДНОГО продвигаемого сайта!!! А ведь мы только подготовили исходные данные, а впереди ещё колоссальные по вычислительной нагрузке статистические расчёты...

Фантастика, которая ещё не скоро станет явью.

meraleks:
Открыли новый вид троллей? Троллиус разумниус?

Не надо съезжать на троллинг, вас никто не троллил...

Я задал вполне конкретные вопросы, поскольку занимаюсь информационным поиском, и дал свои комментарии по существу. Оказалось, не в бровь, а в глаз...

support_rookee:
В настоящее время при окончании денежных средств на счете купленные ссылки уходят в заморозку.

Не, не, хренью вы занимаетесь.

Надо их для тестовых простановок изымать, на опыты! Тут в соседней ветке ТАКОЕ рассказывают... )

SeoPult + и Max не конкурируют между собой за качество, а служат немного для разных целей.

А здравый смысл подсказывает, что цель одна... - деньги!

SeoPult+ помимо автоотсева доноров производит еще тестовую простановку ссылок, производя более жесткий отсев.

Так, так, подождите! Вы же заявляете, что Seopult+ основан на тестовых простановках, а тут пишете про какой-то не ясно на чём основанный автоотсев и + ещё тестовые простановки для ещё более жёсткого отсева. По-моему, Вы уже сами запутались в своей лжи...

SeoPult Max - более сложная технология подбора доноров под каждую конкретную страницу в рамках заданного бюджета. В Max используются ссылки уже прошедшие контроль SeoPult+.

Нафига, Seopult Max не способен отсеить их сразу?! Или опять будете грузить про фантастическую вычислительную нагрузку? Она и так запредельна, я уже писал. Если бы прежде чем выкладывать эту бредятину, вы сами напряглись и посчитали, не прокололись бы так дёшево...

Революционность подхода в том, что рассматриваются не отдельные ссылки, а сочетание (совокупность) доноров, их влияние на конкретное ключевое слово.

Ура, Seopult Max открыл релевантность донора и акцептора! :)))

Это ж, прости Господи, что же вы тогда под ярлыком Seopult+ всем продавали?!

Жесть...

Мы рекомендуем использовать SeoPult для НЧ и СЧ запросов, SeoPult+ для ВЧ и Max для нестабильных запросов и ключевых слов по которым ранее не получалось выйти в ТОП.

Друзья, если вы только сегодня узнали о существовании релевантности, что и кому вы способны порекомендовать...

И как после всего понаписанного вами здесь вам смогут доверять?!

Спасибо за ваш своевременный вопрос!

Спасибо вам, вы развеяли мои сомнения в отношении Seopult...

Intelis:
Исключительно участие в этом G00DMAN'а и вызвало интерес к данному сервису. Предыдущие попытки его (seopult) использовать были не эффективны.

goodman - а кто это?

Yagor добавил 10.10.2011 в 14:33

Yagor:
goodman - а кто это?

а, всё нашёл, там ещё ссылки были.

Читаю.

Yagor добавил 10.10.2011 в 16:32

М-да...

Прочитал. http://www.altertrader.com/publications25.html - псевдонаучный бред оставляет тягостное ощущение... Ранее я уже писал, что большинство "технологий" в seo - развод несчастных, но чтобы настолько цинично и беспринципно.

По порядку.

«Для проведения анализа мы выделили множество свойств донора FD={fd} размерностью 184. Среди этих свойств - статические, динамические и другие особенности страниц-доноров. Данный набор свойств (факторов) … имеет ничего общего с множеством факторов, которые используют для расчета релевантности документа запросу поисковые системы.»

Как?! Как возможно и зачем вообще оптимизировать по тем параметрам, на которые поисковым машинам наплевать?! И откуда можно было нарыть 184 трешака, о которых даже Яндекс не знает? Количество запятых красного цвета считали?!..

«Наиболее эффективные с точки зрения максимальной релевантности акцепторов запросу множества доноров DPA(a) имеют хорошо формализуемые частотные паттерны (FP) значений FD(d): d e DPA(a) Под частотным паттерном понимается совокупность частотных распределений значений факторов F(fd), fd e FD полученных на основе анализа условных распределений F(fd|R) и наиболее эффективных с точки зрения положения акцептора в топе поисковой системы.»

Частоты встречаемости отдельных значений параметров – то есть средняя температура по больнице (у одного 32, у другого 41,2 – в результате 36,6) не значат ровным счётом ничего. Важны уникальные комбинации параметров, информация о которых в частотных паттернах не содержится и не может содержаться в математическом смысле… Автору, для начала, следует разобраться с тем, как сегодня работает ранжирование Яндекса. Недавно Расковалов опубликовал ряд весьма любопытных лекций.

«Между наиболее эффективными по запросу множествами доноров и акцепторами нет взаимно-однозначного соответствия, так как при достаточно большой базе доноров (например, в крупной ссылочной бирже) практически всегда существует больше одного максимально эффективного подмножества.»

Автор начинает за здравие, а заканчивает за упокой… Какая разница, сколько подмножеств в бирже, бери любое работать будет. Ещё раз, принципиально важно следующее: частотное распределение не отражает сами уникальные комбинации параметров, которые породили это распределение.

Поясню. У вас есть 1, 20, 19, 32 и 11 = среднее значение 16,6. Внимание, вопрос! Какие ещё значения могут дать в среднем 16,6? Правильный ответ – любые! Например: 1, 1, 1, 1, 79 = среднее тоже 16,6 И какое распределение брать?!..

«Так как эффективность, как было показано выше, определяется степенью близости распределений свойств множества доноров к частотному паттерну, то максимум эффективности будет достигаться при минимуме невязки между ними:»

Гы, ну целевая функция невязки приведена (скопипастена откуда-то, наверное…  ), но где же пресловутая Мера Эффективности, о которой столько говорится?! То есть как после процесса минимизации рассчитывается оценка эффективности результата и, самое интересное, как она проверяется?!... 

Вообще, прикольная писанина, есть несколько вводных псевдоматематических посылок и не отражающая существо решения задачи стыренная ф-ла невязки. А деньги?! (с)

«на ссылочных биржах размерность множеств доноров исчисляется десятками и сотнями миллионов, кроме того задача усугубляется большим числом различных текстов анкоров. Поэтому в реальности количество разнообразных множеств доноров будет на сотни порядков выше и для их перебора могут понадобиться годы.»

Ой! Автор увлёкся и совершенно забыл, что прежде чем считать на адронном кластрайдере ( :) ), параметры ещё надо получить – то есть выкачать и распарсить доноров. А это, при среднем времени загрузки странички, долгие века… )

А потом Бац! - и очередной апдейт Яндекса! )))

«Для каждого полученного паттерна задача оптимизации решается отдельно при помощи генетического алгоритма. При этом у всех задач общий суммарный бюджет и вводится штрафная функция, не допускающая использования одних и тех же доноров в решениях для разных паттернов. При наличии вычислительного кластера оптимизация проводится параллельно, что существенно повышает скорость решения задачи.»

Забавно. Утверждается, что разбиение задачи на части ускоряет процесс. Это каким же чудесным образом пропала необходимость «сшивания» результатов и поиска всё тех же многострадальных комбинаций? Чудеса…

Ладно, надоело комментировать чушь.

Я всё сказал.

Intelis:
Есть желание протестировать max-вариант от Ильи Зябрева.
Вопрос к саппорту, есть ли возможность переносить существующие URL из Sape к вам в систему?

Прочитал рассылку от сепульта, меня терзают смутные сомнения... (c)

«Максимально эффективное множество доноров для оптимизируемого сайта строится по принципу его наибольшей близости к "оптимальному" множеству при заданных ограничениях на ссылочный бюджет. Для этого из отфильтрованной базы ссылочных бирж выбираются доноры, частотный паттерн которых имеет минимальные отклонения от "идеального".»

Ага-ага, при этом оптимальное множество определяется по конкурентам, которые ни разу не похожи на продвигаемый сайт. То есть заведомо сеть доноров оказывается настроена криво – по каким-то левым сайтам, а не по самому продвигаемому сайту. Чего за бред?!

Всего: 60