swerge

Рейтинг
0
Регистрация
02.06.2008

Внесу свои 5 коп ... есть такой стандартный (для винды) программный интерфейс доступа к текстовой информации из файла (или стандартного потока, например из БД) – Ifilter (Подробнее http://www.ifilter.org/). Практически все (буду рад услышать об исключениях) локальные искалки (от Google, Microsoft итп) используют его при индексировании локальных файлов, а Microsoft использует его абсолютно во всех своих продуктах связанных с поиском. Врядли у Яндекса, в его персональном поиске, доступ к содержимому файла сделан по своему .... – дорого, да и тяжело поддерживать, ведь модули с интерфейсом IFilter делает куча народа. Проверить очень просто - уберите соответствующий модуль (СОМ) из системы и программа перестанет искать по этому типу файла.

По поводу индексации картинок – «легкое преувеличение» ))), индексируют все в основном текст из названий файлов с картинками, подписи под- и рядом с картинками (в html).. ну и прочие «хитрости». Локальный поиск в серьезных системах, при определенных условиях, способен вызвать модуль распознавания текста, и обработать результаты распознавания (часто это можно встретить в обработчике факсов).

Текст книги "Война и мир" в html виде, будет считаться уникальным, и pdf файл с ней тоже. Более того, даже один и тот же pdf файл на разных сайтах будет уникален. Пример: описание какого-либо товара клонируется десятками сайтов, а поиск этого товара выдает один и тот же текст много раз – и это не смотря на борьбу с дублями.

В общем, проблема распознавания «уникален ли данный документ в системе или он уже есть под другим ID» есть, эта тема сводится к поиску похожих документов (только к настоящему поиску, а не как у известного поисковика – берем заголовок документа как запрос пользователя и ищем 😆). Хотелось бы подчеркнуть, что здесь мы говорим о тексте, то есть о данных, форма данных для полнотекстового поиска будет вторична, то есть почти все равно в каком виде файл.

Спасибо что дочитали :D