индексация DOC файлов

garamond
На сайте с 21.11.2006
Offline
84
2165

хотел прикрутить к сайтику DOC файлы, но появилось много вопросов:

1) учитывает Яндекс стили (жирный, Заголовок, курсив и т.п.) при индексации doc?

2) имеет смысл "оптимизоровать" текстовые файлы?

3) возможен бан за поисковый спам внутри документа?

Я даже не представляю, что должен сделать мой сын, чтобы я ему сказал, что в молодости я себе такого не позволял.
K
На сайте с 31.01.2001
Offline
737
#1

По-моему, достаточно прописать название в свойствах файла. Ну и пару гиперссылок в него воткнуть, чтобы люди могли еще куда-нибудь перейти одним кликом.

А что, есть такая ситуация, что надо .DOC - файлы продвигать выше HTML? Интересно, зачем?

P.S. Хотите попробовать белым по белому? :).

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
T.R.O.N
На сайте с 18.05.2004
Offline
314
#2
garamond:
1) учитывает Яндекс стили (жирный, Заголовок, курсив и т.п.) при индексации doc?

Врятле, т.к. как в этом смысл. Имхо конечно, логично предположить, что doc, xml, pdf не парсятся, а просто конвертятся в plain-text. А значит и все выделения теряют смысл.

Сам занимался препарированием ворда - полная ж... Там все очень криво и неоднозначно.

garamond:
3) возможен бан за поисковый спам внутри документа?

Яша приравнивает все что может проиндексировать к страницам сайта.

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)
S
На сайте с 18.11.2005
Offline
32
#3
T.R.O.N:
Имхо конечно, логично предположить, что doc, xml, pdf не парсятся, а просто конвертятся в plain-text. А значит и все выделения теряют смысл.

Для .pdf, по крайне мере, они парсятся не в plain text. Во всяком случае, все выделения и локальные ссылки внутри документа прекрасно видны в "View as HTML". Даже если Google вместо "View as HTML" предлагает "View as Text" (для .ps), то все равно форматирование остается.

T.R.O.N:
Яша приравнивает все что может проиндексировать к страницам сайта.
Вот это интересно. А ссылки из негипертекстовых документов тоже учитываются (во всеми вытекающими последствиями для тех, на кого ссылаются)? Года два назад пытался найти ответ на этот вопрос для Гугла -- ничего не нашел.
garamond
На сайте с 21.11.2006
Offline
84
#4
sokoloff:
Для .pdf, по крайне мере, они парсятся не в plain text.

а вопринимает Яндекс заголовки (базовый, заголовок 1, заголовок 2...) и можно(ли) сопоставить: заголовок 1=h1, заголовок 2=h2....?

T.R.O.N
На сайте с 18.05.2004
Offline
314
#5

Какое имеет отношение парсер и методы показа.

sokoloff:
"View as HTML".

и где Вы это жмете? В броузере??? Так яша то тут причем?

S
На сайте с 18.11.2005
Offline
32
#6
T.R.O.N:
Какое имеет отношение парсер и методы показа.
"View as HTML".
и где Вы это жмете? В броузере??? Так яша то тут причем?

Пардон -- я тут неявно съехал на Гугл. Жму в браузере, просто Гугл (думаю, что в зависимости от способа парсинга) может предлагать разные методы отображения.

Это к тому, что не обязательно они парсятся и в Яндексе в plain text. По крайне мере прямого подтверждения не наблюдал, может где и есть.

T.R.O.N
На сайте с 18.05.2004
Offline
314
#7
sokoloff:
Пардон -- я тут неявно съехал на Гугл. Жму в браузере, просто Гугл (думаю, что в зависимости от способа парсинга) может предлагать разные методы отображения.

Извениете, вы поняли сами что сказали?

броузер, гугл, отображение.... каша получается.

Где Вы видили возможность посмотреть PDF в виде HTML? (или вы что-то другое имели ввиду?).

Вы видили хтябы раз внутиряки RTF. DOC или PDF. Если Вы мне сможете однозначно показать элементы структуры (не формата, а текста) - то сможем дискуссию продолжить.

PS я предположил вариант такого парсера из следующих предпосылок.

1. рессурсы индексаторв ПС очень ограниченны.

2. документы, в отличии от html страниц, как правило, имеют очень низкий вес.

3. такие документы отображаются по очень НЧ запросам, и как правило, при строгом совпадении.

4. структура такх документов очень запутанна. Файлы имеют , обычно, значительно большую длинну, нежели html страницы сайта, а ПС такое не "любит".

6. основная бадза ПС хранится в KOI8 или подобном (экономия места, скорость обработки, подавления спец-символов). Перевод же сложных документов в такую кодировку, и при этом, сохранение структуры - сложное занятие.

7. Не забывайте, что в таких файлах может содержаться значительное количество вложенных объектов.

S
На сайте с 18.11.2005
Offline
32
#8

Это тут оффтопик (тема-то про Яндекс), но если надо, можно продолжить про Гугл.

T.R.O.N:
броузер, гугл, отображение.... каша получается.
Где Вы видили возможность посмотреть PDF в виде HTML? (или вы что-то другое имели ввиду?).
Например, тут

У Вас ведь присутствует ссылка(и) "View as HTML" в результатах, выдаваемых Гуглом, да? Именно это я и хотел сказать.

Для некоторых форматов (напр., postscript) она выглядит как "View as Text".

Т.е. по крайне мере к PDF+Google предположения о plain text не верны. Для Яндекс не знаю, но интересно было бы узнать.

T.R.O.N:
Вы видили хтябы раз внутиряки RTF. DOC или PDF. Если Вы мне сможете однозначно показать элементы структуры (не формата, а текста) - то сможем дискуссию продолжить.
С внутренностями приходилось иметь дело у PDF.

Но топикстартер спрашивал не про элементы структуры текста, а про выделение курсивом, жирным. Они прекрасно сохраняются после парсинга Гуглом.

T.R.O.N
На сайте с 18.05.2004
Offline
314
#9
sokoloff:
Например, тут
У Вас ведь присутствует ссылка(и) "View as HTML" в результатах, выдаваемых Гуглом, да? Именно это я и хотел сказать.
Для некоторых форматов (напр., postscript) она выглядит как "View as Text".

Извените, но Вы просто очень плохо знаете структуру этих файлов. Он может быть многопоточны или многовидовым, т.е. в нем одновременно могут содержаться жанные в нескольких форматах. Внутри пдф и рс можно вложить дубль текста в виде текста или хтмл, для того, чтобы можно было быстро посмотреть что в них находимтся и поиск по файлу давал результат.

Но чеща в таком виде к файлу крепят тольок копиригт.

В вашем примере он парсит не сам пдф, а ту часть, которую автор открыл для превью. Такое иногда делаю, но грамотрней, эту инфу выложить на самой странице, и дать возможность скачать в пдф.

S
На сайте с 18.11.2005
Offline
32
#10
T.R.O.N:
Извените, но Вы просто очень плохо знаете структуру этих файлов. Он может быть многопоточны или многовидовым, т.е. в нем одновременно могут содержаться жанные в нескольких форматах. Внутри пдф и рс можно вложить дубль текста в виде текста или хтмл, для того, чтобы можно было быстро посмотреть что в них находимтся и поиск по файлу давал результат. Но чеща в таком виде к файлу крепят тольок копиригт. В вашем примере он парсит не сам пдф, а ту часть, которую автор открыл для превью.

Про объекты, потоки, слои, rendition actions, словари и прочие детали я в курсе, но прямого отношения к топику это не имеет.

Вопрос был способны ли поисковики (конкретно Яндекс и, раз уж заговорили, то Гугл) вытаскивать что-от более чем plain-text из, очевидно, тех документов, которые это позволяют сделать. Можно ведь и из картинок pdf создать. Прозвучало мнение, что ничего кроме plain text поисковики не знают, и я привел первое пришедшее в голову очевидное опровержение этого для Гугл, который (когда это возможно, есстественно) вытаскивает гораздо больше, чем просто текст. Для сделаных с умом pdf-ов (а таких, информационно насыщенных документов -- статьи и мануалы, в Web большинство) у него это получается на ура.

Да, вы правы, для этого надо обеспечить возможность поисковику индексировать pdf, но это позволяют большинство стандратных средств создания таких документов + мысль о том, для чего и кого это делается.

Из предположения, что в Яндексе сидят люди априори не глупее, следует, что по крайне мере технических сложностей учитывать хотя бы локальное выделения текста для тех же случаев, что и Гугл, им не составляет труда. Вопрос используют ли они их на самом деле -- не знаю и с интересом ознакомлюсь с информацией по этому поводу. Равно как и с информацией учитывает ли Гугл вытащенное локальное форматирование в ранжировании.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий