FAST подружился с PDF, а Google продолжает халтурить

116

funsad

20 мая 2002, 23:31

1320

FAST начал индексировать и выдавать в результатах поиска PDF-файлы. В отличие от Google, который индексирует только первые 120Кб PDF-файла (в то время как средний размер PDF-файлов равен 256Кб), FAST пока обрабатывает их целиком. К слову, аналогичный лимит есть у Google и для html-файлов -- он равен 101Кб, поэтому индексация документа еще не означает возможность его найти.

Сайт SearchEngineShowDown приводит пример, когда на запрос "truck struck the cherry picker basket" Google не находит ничего, в то время как FAST выдает три документа, включая PDF-файл, который есть в индексе Google, но не находится, так как искомая фраза находится в тексте позже места, где остановилась индексация.

Есть также неофициальная информация, что у FAST реализован поиск для doc-файлов и многих других форматов, и включен он может быть мгновенно, если посчитают, что пользователям это необходимо.

С уважением,

Александр Садовский.

I

80

iseg

24 мая 2002, 22:27

#1

Александр, а про 100 килобайт информация это из статьи 1998 года, или откуда-то еще?

A plain hit consists of a capitalization bit, font size, and 12 bits of word position in a document (all positions higher than 4095 are labeled 4096).

В ней говорилось, что Гугль игнорирует все, что после 40 килобайт. (4096* примерно 10)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

F

116

funsad

24 мая 2002, 23:03

#2

Первоначальное сообщение от iseg
Александр, а про 100 килобайт информация это из статьи 1998 года, или откуда-то еще?

Нет, из более нового источника. Впрочем, это нетрудно проверить самим.

1. Находим через FAST документ размером заведомо более 101Кб. Чтобы они выдавались не в случайном порядке, зададим какой-либо запрос, скажем, "search engine".

2. Берем любой документ (267,8 Кб) и проверяем его наличие в Google: присутствует.

3. Теперь собственно тест.

3.1. Задаем любую фразу из начала документа, например, "Experience in sales of thread rolling or indexable tools is not required". Документ выдается, и что уже подозрительно -- его размер показывается как 101Кб.

3.2. Смотрим кэшированную копию документа и видим, что она подозрительно обрывается на границе примерно в 100Кб.

3.3. Главный тест: задаем запрос из второй части документа, например, "It is the chance to set up a sales team as the sales manager wants it to run". Google ничего не находит.

Если быть особо настырным, можно повторить это на десятке документов и убедиться, что гипотеза верна, но, думаю, это и так уже ясно.

С уважением,

Александр Садовский.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

25 мая 2002, 11:47

#3

Ну и правильно! Нечего поощрять документы таких объемов!

Open AI тестирует память для ChatGPT

Что делать, чтобы попасть в ответы Google Bard