Нового как раз придумано очень много, и линейные модели в чистом виде, если Вы про них, обычно не очень хорошо себя ведут.
Из алгоритмов, про которые есть хоть какое-то подобие оффициального подтверждения об использовании в реальном поисковике, можно назвать разве что RankNet в MSN почти 5-летней давности. Даже он уже был нелинейным.
Не то чтобы точный ответ, но возможно будет интересен доклад про Яндекс на HighLoad. Там есть (упрощенные) описания структуры дата-центров и data-flow при поиске.
Начните со статьи Andrei Broder: "Identifying and Filtering Near-Duplicate Documents", in Proc. Annual Symposium on Combinatorial Pattern Matching, 2000
Ну и поиск по ключевым словам типа шинглы, супершинглы, случайные перестановки и т.д.
Не совсем, навернео, точно то, что Вы хотите, что подобные семантические разметки существуют -- микроформаты (http://microformats.org/about/, http://en.wikipedia.org/wiki/Microformats).
Действительно - это косвенно подверждается тем, что внизу страницы появилось:
Ага, а Мэтт Каттс на всякий случай предупреждает, чтобы не обнадеживались:
Причем даже завернутые в javascript показывает 😮
Про объекты, потоки, слои, rendition actions, словари и прочие детали я в курсе, но прямого отношения к топику это не имеет.
Вопрос был способны ли поисковики (конкретно Яндекс и, раз уж заговорили, то Гугл) вытаскивать что-от более чем plain-text из, очевидно, тех документов, которые это позволяют сделать. Можно ведь и из картинок pdf создать. Прозвучало мнение, что ничего кроме plain text поисковики не знают, и я привел первое пришедшее в голову очевидное опровержение этого для Гугл, который (когда это возможно, есстественно) вытаскивает гораздо больше, чем просто текст. Для сделаных с умом pdf-ов (а таких, информационно насыщенных документов -- статьи и мануалы, в Web большинство) у него это получается на ура.
Да, вы правы, для этого надо обеспечить возможность поисковику индексировать pdf, но это позволяют большинство стандратных средств создания таких документов + мысль о том, для чего и кого это делается.
Из предположения, что в Яндексе сидят люди априори не глупее, следует, что по крайне мере технических сложностей учитывать хотя бы локальное выделения текста для тех же случаев, что и Гугл, им не составляет труда. Вопрос используют ли они их на самом деле -- не знаю и с интересом ознакомлюсь с информацией по этому поводу. Равно как и с информацией учитывает ли Гугл вытащенное локальное форматирование в ранжировании.
Это тут оффтопик (тема-то про Яндекс), но если надо, можно продолжить про Гугл.
У Вас ведь присутствует ссылка(и) "View as HTML" в результатах, выдаваемых Гуглом, да? Именно это я и хотел сказать.
Для некоторых форматов (напр., postscript) она выглядит как "View as Text".
Т.е. по крайне мере к PDF+Google предположения о plain text не верны. Для Яндекс не знаю, но интересно было бы узнать.
Но топикстартер спрашивал не про элементы структуры текста, а про выделение курсивом, жирным. Они прекрасно сохраняются после парсинга Гуглом.
Пардон -- я тут неявно съехал на Гугл. Жму в браузере, просто Гугл (думаю, что в зависимости от способа парсинга) может предлагать разные методы отображения.
Это к тому, что не обязательно они парсятся и в Яндексе в plain text. По крайне мере прямого подтверждения не наблюдал, может где и есть.