Контент в разных форматах. Вопрос.

101

tsugaru

31 мая 2008, 21:45

3155

Здравствуйте!

Интересует вопрос. Все мы знаем, что поисковики индексируют не только контент с html страниц, но и pdf файлы, картинки. Так вот интересно, данные о контенте в разных форматах храняться в отдельных базах или в общей. В частности, если есть сайт с текстом книги "Война и мир" в html виде, будет ли считаться уникальным pdf файл с тем же текстом, выложенный на моем сайте. С одной стороны это казалось бы неразумным, но все же может это так?

P.S. Размышления и вопросы навеяны сведениями о большой любви ПС к файлам вышеуказанных форматов.

Спасибо за ответы!

Стройное тело - здоровое тело (http://pohudalka.pp.ua/) - все о здоровом образе жизни.

S2

611

Str256

31 мая 2008, 22:23

#1

.doc и .xls Они тоже очень любят. Вопрос интересный. Содержимое Война_ и_ Мир.doc и Война_ и_ Мир.pdf учитывается ли в разных базах и являются ли оба варианта уникальными? Не проверял на практике, интересно будет узнать от кого-то точный ответ.

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)

165

Vanich

1 июня 2008, 05:29

#2

Логично предположить, что все проиндексированные данные хранятся в наипростейшем формате типа тхт (для быстроты обработки и т.п.), смысл тогда писать распарсенные пдф в другую базу?

Онлайн-консультант для юридических, медицинских, компьютерных, туристических сайтов. Удобно пользователю, прибыльно вебмастеру. (http://webmasters.leadia.ru/?ref=bIoqZIaath) MONKEYWRITE ТЕПЕРЬ БЕСПЛАТНО (https://yadi.sk/d/Hd9mbvyzeMMfp)

370

Слава Шевцов

1 июня 2008, 09:19

#3

Str256:
.doc и .xls Они тоже очень любят. Вопрос интересный. Содержимое Война_ и_ Мир.doc и Война_ и_ Мир.pdf учитывается ли в разных базах и являются ли оба варианта уникальными? Не проверял на практике, интересно будет узнать от кого-то точный ответ.

Сомнительно. Скорее всего схема обработки такая:

1. конвертер из всех форматов в стандартный формат (должен быть, ибо есть кеш);

2. конвертер из стандартного формата в формат с основами слов (слова прогоняются по морфологии);

3. дальше идут всякие фильтры и индексация.

Неизменность точки зрения неизменно порождает иллюзию понимания.

240

LiteCat

1 июня 2008, 11:03

#4

Я когда-то делал свой поисковик (для локальных сайтов), среди нескольких десятков миллионов документов искал. Я сделал подключаемые конверторы разных форматов (html, pdf, rss, doc). А полные тексты как положено хранятся в едином поисковом индексе

Яндекс индексирует Flash Новые опции видео в Появился на свет персональный

101

tsugaru

1 июня 2008, 11:37

#5

LiteCat:
Я когда-то делал свой поисковик (для локальных сайтов), среди нескольких десятков миллионов документов искал. Я сделал подключаемые конверторы разных форматов (html, pdf, rss, doc). А полные тексты как положено хранятся в едином поисковом индексе

и никакими метками не подразделяются на разные форматы?

Интересно будет ли бонусность у pdf документа даже если контент в нем неуникальный😕

S2

611

Str256

1 июня 2008, 13:46

#6

У меня на компьютере стоит программа персональный поиск Яндекса. Индексы всех документов хранятся в одном файле. Но в результатах поиска я могу выбрать формат нужного мне документа: rtf, txt, doc, html, pdf, djvi и т.д. Значит информация о типе текстового файла тоже где-то сохраняется. Логично предположить, что ПС Яндекс действует аналогично. Вероятно, что изменение типа текстового документа делает содержимое уникальным не в индексе, а в результатах поиска. Значит, если на сайте будут несколько одинаковых документов в разных форматах, то все эти документы должны быть в выдаче. Так это или не так, надо проверить на практике. И если так, то какие форматы выше, а какие ниже? Кто-нибудь знает точный ответ?

370

Слава Шевцов

1 июня 2008, 16:40

#7

Str256, возьмите страницу. Поставьте с неё ссылки на разные типы документов с одним текстом и посмотрите, что будет в поиске через неделю ;)

S2

611

Str256

1 июня 2008, 17:02

#8

Слава Шевцов:
Str256, возьмите страницу. Поставьте с неё ссылки на разные типы документов с одним текстом и посмотрите, что будет в поиске через неделю ;)

Я не вижу смысла изобретать велосипед заново, наверняка кто-нибудь уже проводил такие эксперименты. У меня не горит, поэтому подожду ответа тут.

S

0

swerge

2 июня 2008, 17:49

#9

Внесу свои 5 коп ... есть такой стандартный (для винды) программный интерфейс доступа к текстовой информации из файла (или стандартного потока, например из БД) – Ifilter (Подробнее http://www.ifilter.org/). Практически все (буду рад услышать об исключениях) локальные искалки (от Google, Microsoft итп) используют его при индексировании локальных файлов, а Microsoft использует его абсолютно во всех своих продуктах связанных с поиском. Врядли у Яндекса, в его персональном поиске, доступ к содержимому файла сделан по своему .... – дорого, да и тяжело поддерживать, ведь модули с интерфейсом IFilter делает куча народа. Проверить очень просто - уберите соответствующий модуль (СОМ) из системы и программа перестанет искать по этому типу файла.

По поводу индексации картинок – «легкое преувеличение» ))), индексируют все в основном текст из названий файлов с картинками, подписи под- и рядом с картинками (в html).. ну и прочие «хитрости». Локальный поиск в серьезных системах, при определенных условиях, способен вызвать модуль распознавания текста, и обработать результаты распознавания (часто это можно встретить в обработчике факсов).

Текст книги "Война и мир" в html виде, будет считаться уникальным, и pdf файл с ней тоже. Более того, даже один и тот же pdf файл на разных сайтах будет уникален. Пример: описание какого-либо товара клонируется десятками сайтов, а поиск этого товара выдает один и тот же текст много раз – и это не смотря на борьбу с дублями.

В общем, проблема распознавания «уникален ли данный документ в системе или он уже есть под другим ID» есть, эта тема сводится к поиску похожих документов (только к настоящему поиску, а не как у известного поисковика – берем заголовок документа как запрос пользователя и ищем 😆). Хотелось бы подчеркнуть, что здесь мы говорим о тексте, то есть о данных, форма данных для полнотекстового поиска будет вторична, то есть почти все равно в каком виде файл.

Спасибо что дочитали :D

334

Ruba777

10 июня 2008, 14:34

#10

По моему будет по-разному читаться. Поскольку контент еще определяется заголовками (в смысле тэгами) длиною текста и т.д. а он будет в разных форматах, особенно если есть рисунки сильно отличаться..

Отличные мобильные прокси https://mobileproxy.space/?p=10969

Зачем быть уникальным в мире, где все можно скопировать

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах