- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте!
Интересует вопрос. Все мы знаем, что поисковики индексируют не только контент с html страниц, но и pdf файлы, картинки. Так вот интересно, данные о контенте в разных форматах храняться в отдельных базах или в общей. В частности, если есть сайт с текстом книги "Война и мир" в html виде, будет ли считаться уникальным pdf файл с тем же текстом, выложенный на моем сайте. С одной стороны это казалось бы неразумным, но все же может это так?
P.S. Размышления и вопросы навеяны сведениями о большой любви ПС к файлам вышеуказанных форматов.
Спасибо за ответы!
.doc и .xls Они тоже очень любят. Вопрос интересный. Содержимое Война_ и_ Мир.doc и Война_ и_ Мир.pdf учитывается ли в разных базах и являются ли оба варианта уникальными? Не проверял на практике, интересно будет узнать от кого-то точный ответ.
Логично предположить, что все проиндексированные данные хранятся в наипростейшем формате типа тхт (для быстроты обработки и т.п.), смысл тогда писать распарсенные пдф в другую базу?
.doc и .xls Они тоже очень любят. Вопрос интересный. Содержимое Война_ и_ Мир.doc и Война_ и_ Мир.pdf учитывается ли в разных базах и являются ли оба варианта уникальными? Не проверял на практике, интересно будет узнать от кого-то точный ответ.
Сомнительно. Скорее всего схема обработки такая:
1. конвертер из всех форматов в стандартный формат (должен быть, ибо есть кеш);
2. конвертер из стандартного формата в формат с основами слов (слова прогоняются по морфологии);
3. дальше идут всякие фильтры и индексация.
Я когда-то делал свой поисковик (для локальных сайтов), среди нескольких десятков миллионов документов искал. Я сделал подключаемые конверторы разных форматов (html, pdf, rss, doc). А полные тексты как положено хранятся в едином поисковом индексе
Я когда-то делал свой поисковик (для локальных сайтов), среди нескольких десятков миллионов документов искал. Я сделал подключаемые конверторы разных форматов (html, pdf, rss, doc). А полные тексты как положено хранятся в едином поисковом индексе
и никакими метками не подразделяются на разные форматы?
Интересно будет ли бонусность у pdf документа даже если контент в нем неуникальный😕
У меня на компьютере стоит программа персональный поиск Яндекса. Индексы всех документов хранятся в одном файле. Но в результатах поиска я могу выбрать формат нужного мне документа: rtf, txt, doc, html, pdf, djvi и т.д. Значит информация о типе текстового файла тоже где-то сохраняется. Логично предположить, что ПС Яндекс действует аналогично. Вероятно, что изменение типа текстового документа делает содержимое уникальным не в индексе, а в результатах поиска. Значит, если на сайте будут несколько одинаковых документов в разных форматах, то все эти документы должны быть в выдаче. Так это или не так, надо проверить на практике. И если так, то какие форматы выше, а какие ниже? Кто-нибудь знает точный ответ?
Str256, возьмите страницу. Поставьте с неё ссылки на разные типы документов с одним текстом и посмотрите, что будет в поиске через неделю ;)
Str256, возьмите страницу. Поставьте с неё ссылки на разные типы документов с одним текстом и посмотрите, что будет в поиске через неделю ;)
Я не вижу смысла изобретать велосипед заново, наверняка кто-нибудь уже проводил такие эксперименты. У меня не горит, поэтому подожду ответа тут.
Внесу свои 5 коп ... есть такой стандартный (для винды) программный интерфейс доступа к текстовой информации из файла (или стандартного потока, например из БД) – Ifilter (Подробнее http://www.ifilter.org/). Практически все (буду рад услышать об исключениях) локальные искалки (от Google, Microsoft итп) используют его при индексировании локальных файлов, а Microsoft использует его абсолютно во всех своих продуктах связанных с поиском. Врядли у Яндекса, в его персональном поиске, доступ к содержимому файла сделан по своему .... – дорого, да и тяжело поддерживать, ведь модули с интерфейсом IFilter делает куча народа. Проверить очень просто - уберите соответствующий модуль (СОМ) из системы и программа перестанет искать по этому типу файла.
По поводу индексации картинок – «легкое преувеличение» ))), индексируют все в основном текст из названий файлов с картинками, подписи под- и рядом с картинками (в html).. ну и прочие «хитрости». Локальный поиск в серьезных системах, при определенных условиях, способен вызвать модуль распознавания текста, и обработать результаты распознавания (часто это можно встретить в обработчике факсов).
Текст книги "Война и мир" в html виде, будет считаться уникальным, и pdf файл с ней тоже. Более того, даже один и тот же pdf файл на разных сайтах будет уникален. Пример: описание какого-либо товара клонируется десятками сайтов, а поиск этого товара выдает один и тот же текст много раз – и это не смотря на борьбу с дублями.
В общем, проблема распознавания «уникален ли данный документ в системе или он уже есть под другим ID» есть, эта тема сводится к поиску похожих документов (только к настоящему поиску, а не как у известного поисковика – берем заголовок документа как запрос пользователя и ищем 😆). Хотелось бы подчеркнуть, что здесь мы говорим о тексте, то есть о данных, форма данных для полнотекстового поиска будет вторична, то есть почти все равно в каком виде файл.
Спасибо что дочитали :D
По моему будет по-разному читаться. Поскольку контент еще определяется заголовками (в смысле тэгами) длиною текста и т.д. а он будет в разных форматах, особенно если есть рисунки сильно отличаться..