pro-maker

pro-maker
Рейтинг
281
Регистрация
08.12.2003
Интересы
трафикогенерация, и-маркетинг
BigBrother:
Часа через два закончится.... Только это не апдейт, это его последствия.
Wade:
BigBrother, подобные заявления подогревают, на мой взгляд, азарт общественности. Предлагаю, в связи с этим, подогревание перенести на утренние часы, когда какое-нибудь азартное событие способствует скорейшему пробуждению

Б.Б., скорее всего, имел ввиду, что то, что называют апдейтом оптимизаторы (и создают об этом топики) на самом деле является выкатыванием нового индекса, а сам апдейт (пересчет, обновление индекса) производится ранее.

AlexKats:
хоть убейте не вижу где эти цифры, в строке нет, на странице нет ... куда посмотреть или нажать, чтобы увидеть ентот препроцессинг?

Задаете запрос, получаете серп, у любой позиции в "сохраненной копии" есть параметр regtext, который и содержит переколдовку. Но лучше поставить плагин Коли Дубра на Файерфокс, который удобно выдает переколдовку ниже строки статистики "Запросов за месяц ..."

BigBrother:
И где тут что-то новое?

Речь о том, что ссылочный спам будет имплантирован в контент, например, в виде текстовых ссылок на источники информации, и, возможно, яндексоиды еще не знакомы с этой хитростью оптимизаторов.

Aleksey01:
Но по запросу "" << url="www.exler.ru*" получаем

Посмотрите переколдовку запроса: (!url::7020 & www::747 &/(1 1) exler::732449 &/(1 1) ru::332)//6

При таком запросе ищутся страницы, содержащие "url & www &/(1 1) exler &/(1 1) ru" (веса удалены для упрощения). Откройте сохраненные копии, там они д.б. подсвечены.

midian777:
Или так нельзя делать? Это не по Минычу?

Можно, попугаи в таком запросе больше рулят, чем в исходном варианте: кондиционеры::6411 | попугаи::188604. Использовать вариации весами предлагает сам Яндекс в своем языке запросов, поэтому их можно задавать самые разные.

dweller:
Ёлы-палы, так это один человек?

Вроде, как трое. В скобках перечисление соучастников. :)

midian777:
А зачем тумана столько-то? Да и нового ничего не открыто... Всё в хелпе Яндекса так и написано, только человеческим языком...
А причём тут Миныч?
Я то сначала подумал, что он придумал как вес слов в ссылках "прокачивать", или там на собственном сайте, например...

Миныч (ХренРедьНеСлаще, euhenio) первым бесчеловеческим языком поведал о препроцессинге Яндекса, нормировке документов (тошноте) и т.п. сущностях, задействованных в поиске, а также разработал методику численного анализа ранжирования.

Tarry, спасибо.

midian777:
мдя... ничё не понял..
Вот я понимаю, когда результат поиска релевантен запросу пользователя. Но как одна часть может быть релевантна другой части запроса?

Спрашиваем у Яндекса (кондиционеры|попугаи), получаем от него препроцессинг (кондиционеры::6411 | попугаи::188604)//6, ставим в строку запроса (кондиционеры::6411 | попугаи::188604), в топе "кондиционеры" (точнее прокачанные страницы с "кондиционерами"), далее уменьшаем вес "кондиционеров": (кондиционеры::1 | попугаи::188604), т.е. понижаем их релевантность в запросе с логическим ИЛИ. Релевантность - это число, его можно повысить или понизить.

midian777:
как понимать, т.е. что такое "РЕЛЕВАНТНОСТЬ ЧАСТЕЙ ЗАПРОСА"?

Запрос (слово1::вес1|слово2::вес2), меняя вес1 и вес2 меняете релевантность слова1 и слова2 относительно друг друга. Главный секрет: релевантность при расчете округляется (в этимологии школы Миныча - ступеньки имени Миныча), поэтому добавив +1 к весу1 слово1 скорее всего не обойдет слово2 в выдаче (а порядок в выдаче и есть отражение анализируемой релевантности). Но методом итераций можно подобрать вес1ступенька, при котором слово1 обойдет слово2.

midian777:
Отталкиваясь от языка запросов, более-менее правильно спросить так: именно с таким оператором ":"
midian777:1819103916 << url="forum.searchengines.ru/*":1819103916:0)//6
Ой, неужели "синтаксическая ошибка"?!

Поправил Ваши синтаксические ошибки. :)

Правильно так: (midian777:1819103916 << url="forum.searchengines.ru/*":1819103916)//6

midian777:
А если так (без применения веса у урла):
midian777:1819103916 << url="forum.searchengines.ru/*")//6
Абалдеть, правда?

Пропущена открывающая скобка, правильно: (midian777:1819103916 << url="forum.searchengines.ru/*")//6. "//6" - мягкость, относится ко всему выражению, это коэффициент учета количества слов запроса.

midian777:
Ну, и потом - я же на истину не претендую, пытаюсь растолковать Миныча.

Вроде, и я ни на что не претендую, отвечая на Ваши вопросы. :)

midian777, будет полезно поразбираться с языком запросов Яндекса и понаблюдать за переколдовкой сложных запросов, например, с неранжирующим И. Для этого очень удобен плагин Дубра для Файерфокса.

midian777:
А веса (ну, какието_циферки) к урлам прикручивать - вовсе нонсенс, оператором url в кавычках даёт яндексу понять, что найти надо урл, указанный в кавычках, тупо - урл, и тут же вес слова прикручивает, хотя для яндекса дана точная команда, а не поисковой запрос...

Если попросить найти (midian777 << url="forum.searchengines.ru/*"), т.е. Ваш ник по этому форуму, Яндекс производит препроцессинг запроса (переколдовку): (midian777::1819103916 << url="forum.searchengines.ru/*"::1819103916:0)//6, т.е. сам Яндекс применяет веса в урлах, поэтому ничего необычного в этом нет.

midian777:
Вот для чего это оператор :, вообще, нужен?

В данном случае веса (":") использованы, чтобы повысить или понизить релевантность частей запроса с логическим ИЛИ относительно друг друга.

Насколько помню Садовский в кулуарах отвечал, что одному документу ставится в соответствие один раздел Я.Каталога.

Вопрос о тематике Садовскому задавал по их докладу на РОМИП-2006. Поскольку в обсуждении у нас пока одни догадки, пришлось вернуться к первоисточнику. :) В отчете Яндекса есть раздел "2.4 Pseudo-relevance feedback". Итак, цитата: :)

мы даем бонус документам, похожим на помеченные экспертом. Мера похожести может быть любой. Нами была использована мера похожести, основанная на тегах, которые мы присваивали каждому документу.

Метод relevance feedback можно применять и без участия пользователя, если предположить, что наша система достаточно хороша и на первых позициях находит релевантные документы. Тогда мы просто объявляем первые N документов релевантными и повышаем ранг документов, похожих на них. Мы объявляем, что степень релевантности зависит от позиции документа в выдаче ...

Для расчета похожести нам нужны какие-то теги – признаки документов, по которым мы будем определять похожесть. Для РОМИПа мы использовали два набора тегов.

Первый набор тегов – автоматическая классификация документов по темам Яндекс.Каталога. Для классификации мы использовали алгоритм Байеса в интерпретации Пола Грэма [3] Коллекция доку-ментов, на которой настраивался автомат, сформирована по принципам, описанным в [4]. Каждому документу автомат приписывает одну тему. Точность алгоритма – 63%, полнота – 46%, F1 – 54% (величины – микроусредненные, измерены по рубрикам 2-го уровня Яндекс.Каталога) . В результате PRF дополнительный бонус получают документы той же темы, что и первые документы выдачи.

Второй набор тегов использует слова, встречающиеся в документе. Идея метода заключается в том, что некоторые группы слов часто встречаются вместе. Найдя такие группы, мы можем назначить им теги. После этого каждому документу мы можем назначить тег, если в документе встречается много слов из группы этого тега. Для построения таких групп был использован принцип минимальной длины описания (Minimal Description Length, MDL).

Возьмем матрицу, по строкам которой расположены документы, по столбцам слова. Запишем 1 в пересечение, если в документе встречается это слово и 0 в обратном случае. Дальше нам нужно построить максимально компактное описание этой матрицы с по-мощью тегов (групп слов). Используем описание в следующем виде. Для каждого тега имеем список слов, для каждого документа – спи-сок тегов этого документа и список “поправочных” слов. Объедине-ние слов тегов документа дает нам множество “предсказанных” слов для документа. “Поправочные” слова – это слова, которые есть в документе, но их нет в “предсказанных” или, наоборот, слова, ко-торые есть в “предсказанных”, но отсутствуют в документе. Подбе-рем оптимальное с точки зрения количества информации описание исходной матрицы. В результате получим группы слов и списки до-кументов, в которых используются эти группы слов. Для РОМИПа мы взяли ~50 тысяч документов и ~15 тысяч самых частотных слов. В этих данных были найдены ~800 групп слов. Эти группы и были использованы в качестве второго набора тегов. В результате PRF со вторым набором тегов бонус получают документы, использующие сходную с лидерами лексику.

Для определения схожести двух документов по тегам используется взвешенное по idf тега скалярное произведение ...

Для первого прохода с тегами – классификацией по каталогу k1=-0.3, k2=0.25 Для второго прохода с тегами по наборам слов k1=-0.1, k2=0.1

Возможно, наборы коэффициентов k1=-0.3, k2=0.25 и k1=-0.1, k2=0.1 и отражают размеры бонусов, получаемых документами за соответствие запросу пользователя. Хотелось бы, конечно, чтобы кто-то еще раз посмотрел источник и прокомментировал размер назначаемых бонусов.

Всего: 4277