FAST подружился с PDF, а Google продолжает халтурить

F
На сайте с 15.11.2000
Offline
116
1314

FAST начал индексировать и выдавать в результатах поиска PDF-файлы. В отличие от Google, который индексирует только первые 120Кб PDF-файла (в то время как средний размер PDF-файлов равен 256Кб), FAST пока обрабатывает их целиком. К слову, аналогичный лимит есть у Google и для html-файлов -- он равен 101Кб, поэтому индексация документа еще не означает возможность его найти.

Сайт SearchEngineShowDown приводит пример, когда на запрос "truck struck the cherry picker basket" Google не находит ничего, в то время как FAST выдает три документа, включая PDF-файл, который есть в индексе Google, но не находится, так как искомая фраза находится в тексте позже места, где остановилась индексация.

Есть также неофициальная информация, что у FAST реализован поиск для doc-файлов и многих других форматов, и включен он может быть мгновенно, если посчитают, что пользователям это необходимо.

С уважением,

Александр Садовский.

I
На сайте с 15.12.2000
Offline
80
#1

Александр, а про 100 килобайт информация это из статьи 1998 года, или откуда-то еще?

A plain hit consists of a capitalization bit, font size, and 12 bits of word position in a document (all positions higher than 4095 are labeled 4096).

В ней говорилось, что Гугль игнорирует все, что после 40 килобайт. (4096* примерно 10)

F
На сайте с 15.11.2000
Offline
116
#2
Первоначальное сообщение от iseg
Александр, а про 100 килобайт информация это из статьи 1998 года, или откуда-то еще?

Нет, из более нового источника. Впрочем, это нетрудно проверить самим.

1. Находим через FAST документ размером заведомо более 101Кб. Чтобы они выдавались не в случайном порядке, зададим какой-либо запрос, скажем, "search engine".

2. Берем любой документ (267,8 Кб) и проверяем его наличие в Google: присутствует.

3. Теперь собственно тест.

3.1. Задаем любую фразу из начала документа, например, "Experience in sales of thread rolling or indexable tools is not required". Документ выдается, и что уже подозрительно -- его размер показывается как 101Кб.

3.2. Смотрим кэшированную копию документа и видим, что она подозрительно обрывается на границе примерно в 100Кб.

3.3. Главный тест: задаем запрос из второй части документа, например, "It is the chance to set up a sales team as the sales manager wants it to run". Google ничего не находит.

Если быть особо настырным, можно повторить это на десятке документов и убедиться, что гипотеза верна, но, думаю, это и так уже ясно.

С уважением,

Александр Садовский.

[Удален]
#3

Ну и правильно! Нечего поощрять документы таких объемов!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий