Контент в разных форматах. Вопрос.

123
LiteCat
На сайте с 03.05.2007
Offline
240
#11
tsugaru:
и никакими метками не подразделяются на разные форматы?
Интересно будет ли бонусность у pdf документа даже если контент в нем неуникальный😕

Ну это уже вопрос логики создателей - на что они ориентируются. Если это поисковик для веб, то веб-страницы там - преимущественный и предпочтительный контент для выдачи:) а если поисковик по книгам - то возможно и PDF

[Удален]
#12

В вопросе ТС зарыт интересный момент - возможно дублирование сайта в варианте PDF, и это будет плюсом в глазах поисковика

S
На сайте с 10.06.2008
Offline
19
#13
Vanich:
Логично предположить, что все проиндексированные данные хранятся в наипростейшем формате типа тхт (для быстроты обработки и т.п.), смысл тогда писать распарсенные пдф в другую базу?

Когда я занимался проектированием большого поисковика, исплоьзовалась следующая технология: Информация хранится в двух видах - индекс (двоичное дерево) и контент (выдернутый из исходного документа текст без мусора). Насколько я знаю, принципиально новых технологий не появилось, разве что в ПС контент хранится не всегда

S2
На сайте с 07.01.2008
Offline
611
#14

Яндекс может использовать отдельные сервера для хранения .doc .pdf и так далее. А вот будут ли одинаковые данные с одного сайта в разных форматах в выдаче по одному запросу? А если не будут, что ПС предпочтёт выдать стандартную страницу или прикреплённый документ?

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
S
На сайте с 10.06.2008
Offline
19
#15
Str256:
Яндекс может использовать отдельные сервера для хранения .doc .pdf и так далее.

Откуда у яндекса столько серверов, да и зачем их хранить отдельно, а затем тратить дополнительные ресурсы на запросы к нескольким базам?

tsugaru
На сайте с 27.07.2007
Offline
101
#16
claygod:
В вопросе ТС зарыт интересный момент - возможно дублирование сайта в варианте PDF, и это будет плюсом в глазах поисковика

момент действительно интересный. Навеян недавним бумом с продажей контента в форматах gif tif и пр.

Стройное тело - здоровое тело (http://pohudalka.pp.ua/) - все о здоровом образе жизни.
S2
На сайте с 07.01.2008
Offline
611
#17
SADtg:
Откуда у яндекса столько серверов, да и зачем их хранить отдельно, а затем тратить дополнительные ресурсы на запросы к нескольким базам?

Ну может один сервер. Серверов у него достаточно. А отдельно, так как эти документы в отличии от обычной страницы не требуют переиндексации. Если меняется содержимое, то меняется и название документа. Поэтому можно резервировать.

Maxiz
На сайте с 04.01.2008
Offline
218
#18

а мне вот иртересен слудующий вопрос для тех, кто знает точно.

Отдают ли предпочтения поисковые системы Html формату или например PDF формату. То есть Если хранить некоторые статьи в формате PDF - сайт в глазах поисковика падать будет или нет ? Или таки всё равно, что HTML, что PDF - для поисковиков без разницы

S
На сайте с 10.06.2008
Offline
19
#19
Str256:
Ну может один сервер. Серверов у него достаточно. А отдельно, так как эти документы в отличии от обычной страницы не требуют переиндексации. Если меняется содержимое, то меняется и название документа. Поэтому можно резервировать.

Совершенно не показатель. Например, на половине сайтов, что-то продающих, лежит файл price.xls... Думаете, тоже статичный? :) Контрольную сумму сверять - логично. но это и для обычных страниц можно делать, так что совершенно не обязательно "выносить"

Интересует другой вопрос - а учитывают ли ПС ссылки из документов, отличных от html? ☝

tsugaru
На сайте с 27.07.2007
Offline
101
#20
SADtg:
Совершенно не показатель. Например, на половине сайтов, что-то продающих, лежит файл price.xls... Думаете, тоже статичный? :) Контрольную сумму сверять - логично. но это и для обычных страниц можно делать, так что совершенно не обязательно "выносить"

Интересует другой вопрос - а учитывают ли ПС ссылки из документов, отличных от html? ☝

По этому поводу недавно статью читал на каком-то блоге. Проводили эксперимент. Учитываются ли ссылки из PDF документов. Результат был однозначный - НЕТ. Хотя, глядя на многие пдфки с кучей ссылок внизу, думается, что возможно у людей есть другие сведения по этому поводу.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий