Комментарии - sokoloff - Профиль вебмастера - Форум об интернет-маркетинге

23 января 2010, 14:11

SplashS:
разные посковики подмешивают разные фильтры, меняют коэффициенты у этих составляющих. вот и вся разница. Базового никто ничего нового не придумал.

Нового как раз придумано очень много, и линейные модели в чистом виде, если Вы про них, обычно не очень хорошо себя ведут.

Из алгоритмов, про которые есть хоть какое-то подобие оффициального подтверждения об использовании в реальном поисковике, можно назвать разве что RankNet в MSN почти 5-летней давности. Даже он уже был нелинейным.

Технологии поисковых систем

19 января 2008, 13:49

как соединяются между собой (маршрутизаторами,коммутаторами) компоненты поисковой системы

Не то чтобы точный ответ, но возможно будет интересен доклад про Яндекс на HighLoad. Там есть (упрощенные) описания структуры дата-центров и data-flow при поиске.

как поисковики вычисляют дубликаты?

14 августа 2007, 18:35

Начните со статьи Andrei Broder: "Identifying and Filtering Near-Duplicate Documents", in Proc. Annual Symposium on Combinatorial Pattern Matching, 2000

Ну и поиск по ключевым словам типа шинглы, супершинглы, случайные перестановки и т.д.

О выделении (семантических) тегов в тексте.

13 июня 2007, 08:51

Не совсем, навернео, точно то, что Вы хотите, что подобные семантические разметки существуют -- микроформаты (http://microformats.org/about/, http://en.wikipedia.org/wiki/Microformats).

Google ищет лица

1 июня 2007, 13:08

SilverMaster:
больше чем уверен - это имидж лабер.

Действительно - это косвенно подверждается тем, что внизу страницы появилось:

New! Want to improve Google Image Search? Try Google Image Labeler.

В помощь веб-мастеру - посмотри свои backlinks

6 февраля 2007, 12:11

sokoloff:

motorhead:
с rel="nofollow" тоже показывает

Причем даже завернутые в javascript показывает

Ага, а Мэтт Каттс на всякий случай предупреждает, чтобы не обнадеживались:

Do not assume just because you see a backlink that it’s carrying weight.

В помощь веб-мастеру - посмотри свои backlinks

6 февраля 2007, 08:34

motorhead:
с rel="nofollow" тоже показывает :)

Причем даже завернутые в javascript показывает 😮

индексация DOC файлов

29 января 2007, 10:24

T.R.O.N:
Извените, но Вы просто очень плохо знаете структуру этих файлов. Он может быть многопоточны или многовидовым, т.е. в нем одновременно могут содержаться жанные в нескольких форматах. Внутри пдф и рс можно вложить дубль текста в виде текста или хтмл, для того, чтобы можно было быстро посмотреть что в них находимтся и поиск по файлу давал результат. Но чеща в таком виде к файлу крепят тольок копиригт. В вашем примере он парсит не сам пдф, а ту часть, которую автор открыл для превью.

Про объекты, потоки, слои, rendition actions, словари и прочие детали я в курсе, но прямого отношения к топику это не имеет.

Вопрос был способны ли поисковики (конкретно Яндекс и, раз уж заговорили, то Гугл) вытаскивать что-от более чем plain-text из, очевидно, тех документов, которые это позволяют сделать. Можно ведь и из картинок pdf создать. Прозвучало мнение, что ничего кроме plain text поисковики не знают, и я привел первое пришедшее в голову очевидное опровержение этого для Гугл, который (когда это возможно, есстественно) вытаскивает гораздо больше, чем просто текст. Для сделаных с умом pdf-ов (а таких, информационно насыщенных документов -- статьи и мануалы, в Web большинство) у него это получается на ура.

Да, вы правы, для этого надо обеспечить возможность поисковику индексировать pdf, но это позволяют большинство стандратных средств создания таких документов + мысль о том, для чего и кого это делается.

Из предположения, что в Яндексе сидят люди априори не глупее, следует, что по крайне мере технических сложностей учитывать хотя бы локальное выделения текста для тех же случаев, что и Гугл, им не составляет труда. Вопрос используют ли они их на самом деле -- не знаю и с интересом ознакомлюсь с информацией по этому поводу. Равно как и с информацией учитывает ли Гугл вытащенное локальное форматирование в ранжировании.

индексация DOC файлов

28 января 2007, 12:08

Это тут оффтопик (тема-то про Яндекс), но если надо, можно продолжить про Гугл.

T.R.O.N:
броузер, гугл, отображение.... каша получается.
Где Вы видили возможность посмотреть PDF в виде HTML? (или вы что-то другое имели ввиду?).

Например, тут

У Вас ведь присутствует ссылка(и) "View as HTML" в результатах, выдаваемых Гуглом, да? Именно это я и хотел сказать.

Для некоторых форматов (напр., postscript) она выглядит как "View as Text".

Т.е. по крайне мере к PDF+Google предположения о plain text не верны. Для Яндекс не знаю, но интересно было бы узнать.

T.R.O.N:
Вы видили хтябы раз внутиряки RTF. DOC или PDF. Если Вы мне сможете однозначно показать элементы структуры (не формата, а текста) - то сможем дискуссию продолжить.

С внутренностями приходилось иметь дело у PDF.

Но топикстартер спрашивал не про элементы структуры текста, а про выделение курсивом, жирным. Они прекрасно сохраняются после парсинга Гуглом.

индексация DOC файлов

26 января 2007, 16:29

T.R.O.N:
Какое имеет отношение парсер и методы показа.
"View as HTML".
и где Вы это жмете? В броузере??? Так яша то тут причем?

Пардон -- я тут неявно съехал на Гугл. Жму в браузере, просто Гугл (думаю, что в зависимости от способа парсинга) может предлагать разные методы отображения.

Это к тому, что не обязательно они парсятся и в Яндексе в plain text. По крайне мере прямого подтверждения не наблюдал, может где и есть.

Google: E-E-A-T не является фактором ранжирования

Маркетинг для шоколадной фабрики. На 34% выше средний чек

sokoloff