sokoloff

Рейтинг
32
Регистрация
18.11.2005
SplashS:
разные посковики подмешивают разные фильтры, меняют коэффициенты у этих составляющих. вот и вся разница. Базового никто ничего нового не придумал.

Нового как раз придумано очень много, и линейные модели в чистом виде, если Вы про них, обычно не очень хорошо себя ведут.

Из алгоритмов, про которые есть хоть какое-то подобие оффициального подтверждения об использовании в реальном поисковике, можно назвать разве что RankNet в MSN почти 5-летней давности. Даже он уже был нелинейным.

как соединяются между собой (маршрутизаторами,коммутаторами) компоненты поисковой системы

Не то чтобы точный ответ, но возможно будет интересен доклад про Яндекс на HighLoad. Там есть (упрощенные) описания структуры дата-центров и data-flow при поиске.

Начните со статьи Andrei Broder: "Identifying and Filtering Near-Duplicate Documents", in Proc. Annual Symposium on Combinatorial Pattern Matching, 2000

Ну и поиск по ключевым словам типа шинглы, супершинглы, случайные перестановки и т.д.

Не совсем, навернео, точно то, что Вы хотите, что подобные семантические разметки существуют -- микроформаты (http://microformats.org/about/, http://en.wikipedia.org/wiki/Microformats).

SilverMaster:
больше чем уверен - это имидж лабер.

Действительно - это косвенно подверждается тем, что внизу страницы появилось:

New! Want to improve Google Image Search? Try Google Image Labeler.
sokoloff:
motorhead:
с rel="nofollow" тоже показывает

Причем даже завернутые в javascript показывает

Ага, а Мэтт Каттс на всякий случай предупреждает, чтобы не обнадеживались:

Do not assume just because you see a backlink that it’s carrying weight.
motorhead:
с rel="nofollow" тоже показывает :)

Причем даже завернутые в javascript показывает 😮

T.R.O.N:
Извените, но Вы просто очень плохо знаете структуру этих файлов. Он может быть многопоточны или многовидовым, т.е. в нем одновременно могут содержаться жанные в нескольких форматах. Внутри пдф и рс можно вложить дубль текста в виде текста или хтмл, для того, чтобы можно было быстро посмотреть что в них находимтся и поиск по файлу давал результат. Но чеща в таком виде к файлу крепят тольок копиригт. В вашем примере он парсит не сам пдф, а ту часть, которую автор открыл для превью.

Про объекты, потоки, слои, rendition actions, словари и прочие детали я в курсе, но прямого отношения к топику это не имеет.

Вопрос был способны ли поисковики (конкретно Яндекс и, раз уж заговорили, то Гугл) вытаскивать что-от более чем plain-text из, очевидно, тех документов, которые это позволяют сделать. Можно ведь и из картинок pdf создать. Прозвучало мнение, что ничего кроме plain text поисковики не знают, и я привел первое пришедшее в голову очевидное опровержение этого для Гугл, который (когда это возможно, есстественно) вытаскивает гораздо больше, чем просто текст. Для сделаных с умом pdf-ов (а таких, информационно насыщенных документов -- статьи и мануалы, в Web большинство) у него это получается на ура.

Да, вы правы, для этого надо обеспечить возможность поисковику индексировать pdf, но это позволяют большинство стандратных средств создания таких документов + мысль о том, для чего и кого это делается.

Из предположения, что в Яндексе сидят люди априори не глупее, следует, что по крайне мере технических сложностей учитывать хотя бы локальное выделения текста для тех же случаев, что и Гугл, им не составляет труда. Вопрос используют ли они их на самом деле -- не знаю и с интересом ознакомлюсь с информацией по этому поводу. Равно как и с информацией учитывает ли Гугл вытащенное локальное форматирование в ранжировании.

Это тут оффтопик (тема-то про Яндекс), но если надо, можно продолжить про Гугл.

T.R.O.N:
броузер, гугл, отображение.... каша получается.
Где Вы видили возможность посмотреть PDF в виде HTML? (или вы что-то другое имели ввиду?).
Например, тут

У Вас ведь присутствует ссылка(и) "View as HTML" в результатах, выдаваемых Гуглом, да? Именно это я и хотел сказать.

Для некоторых форматов (напр., postscript) она выглядит как "View as Text".

Т.е. по крайне мере к PDF+Google предположения о plain text не верны. Для Яндекс не знаю, но интересно было бы узнать.

T.R.O.N:
Вы видили хтябы раз внутиряки RTF. DOC или PDF. Если Вы мне сможете однозначно показать элементы структуры (не формата, а текста) - то сможем дискуссию продолжить.
С внутренностями приходилось иметь дело у PDF.

Но топикстартер спрашивал не про элементы структуры текста, а про выделение курсивом, жирным. Они прекрасно сохраняются после парсинга Гуглом.

T.R.O.N:
Какое имеет отношение парсер и методы показа.
"View as HTML".
и где Вы это жмете? В броузере??? Так яша то тут причем?

Пардон -- я тут неявно съехал на Гугл. Жму в браузере, просто Гугл (думаю, что в зависимости от способа парсинга) может предлагать разные методы отображения.

Это к тому, что не обязательно они парсятся и в Яндексе в plain text. По крайне мере прямого подтверждения не наблюдал, может где и есть.

12 3
Всего: 28