Честно говоря, спор об уникальности контента для поисковика выглядит бессмысленным без знаний об используемом алгоритме и его параметрах, т.к. для каждого подхода - свое четкое определение дублирования. Например, есть алгоритм шинглов, который оперирует с "кусочками" текста по несколько слов. И сколько вы их не мешайте - дубль будет найден. Есть методы основанные на частотном анализе слов в документе с отбрасываем незначащих слов (есть много способов определять незначащие слова), некоторые из методом могут нормализовывать словоформы. Разнообразие огромное. А как это сделано в гугле - ХЗ, никто не расскажет ;)
Я смотрю у вас обратная задача :) Обмануть поисковик. Но антиподход - тоже интересно ;) Сейчас просмотрю.
Если смотреть глобально, то надо выделить следующие моменты:
1) Формально вы не должны выдавать в поиске ссылки на варез, если не хотите когда-то поиметь проблем с законом. Вам нужно будет научиться решать этот вопрос, если хотите вести бизнес легально. Боюсь, что автоматом эту проблему не решить. Впрочем я не юрист, здесь вам стоит проконсультироваться со специалистами. Вполне возможно, что никто не запрещает давать ссылки на варез, не храня его у себя ;-) Хотя законы в этой области на просторах СНГ изменчивы.
2) Такой сервис безусловно займет какую-то нишу при правильной раскрутке и верном маркетинговом подходе. Разумеется есть другие поисковики, но если вы будете специализироваться исключетельно на поиске файлов, то сможете их здесь "обскакать" в удобстве и функциональности (имеено в области поиска по файлам).
3) Пиринговые сети - есть такая буква - но все-таки, как верно подметили, удобства там не очень много, можно по долгу стоять в очереди за файлом. Но в области поиска вареза пиринговые сети будут основным инструментом.
Т.е. мое мнение, что сервис может быть успешным, занимая нишу поиска по легальному контенту.
Разделение на класы похожих документов происходит всегда, не зависимо от того для чего это нужно. Разница только в том какие алгоритмы и с какими параметрами использовать. Мне нужно отлавливать дубли-кандидаты на уничтожение, чтобы очистить индекс от "почти" одинаковых страниц.
А что за модификации к натчу?
Слишком обширная тема, чтобы ответить на поставленный вопрос. Но для поисковика, обладающего небольшими мощностями вдаваться в анализ контента вообще нет смысла. Надо анализировать ссылки для отбора кандидатов на ручной анализ и бан.
Тот же трастранк подойдет.
Скорее всего, в случае отсутствия поискового запроса ранжирование идет исключительно по off-page факторам, т.е. ссылочному весу страницы.
Я, честно говоря, не совсем пойму, в чем вы видите проблему? Задача поиска по файлам достаточно тривиальна: индексируете название, индексируете текст входящих ссылок (возможно, включая некоторую дельта-окрестность), всю текстовую информацию внутри файла (например pdf - это тоже бинарные данные, но есть конвертеры в текст; очень часто в бинарных файлах есть различная метаинформация: например, id3 тэг в mp3), можно попробовать индексировать слова, входящие в путь к файлу.
При поиске давать позможность фильтрации по типу (лучше здесь использовать content-type, хотя не всегда надежный способ; как альтернатива - по расширению, но опять-таки нет гарантии, что расширение соответствует содержанию)
Вы имеете в виду те, у которых выпали страницы из индекса?
Все же не соглашусь, во 1ых, алгоритм сслылочной кластеризации, Locality Sensitive Hash, то это все-равно будет анализ на уровне слов, а во 2ых, вы сами же предложили пословного левенштейна ;)
В моем случае надо отлвливать прежде всего неумышленные нечеткие дубли. Например, одна и та же страница, но поменялось время в футере, добавилась форма ввода сообщения (проанализируйте, к примеру, этот форум на предмет таких непреднамеренных дублей - будет понятно, о чем я). Кроме того, было бы здорово ограничится только одной контрольной суммой на документ ;) Или же найти другие быстрые алгоритмы.