Eugen

Рейтинг
15
Регистрация
27.08.2005

Честно говоря, спор об уникальности контента для поисковика выглядит бессмысленным без знаний об используемом алгоритме и его параметрах, т.к. для каждого подхода - свое четкое определение дублирования. Например, есть алгоритм шинглов, который оперирует с "кусочками" текста по несколько слов. И сколько вы их не мешайте - дубль будет найден. Есть методы основанные на частотном анализе слов в документе с отбрасываем незначащих слов (есть много способов определять незначащие слова), некоторые из методом могут нормализовывать словоформы. Разнообразие огромное. А как это сделано в гугле - ХЗ, никто не расскажет ;)

Я смотрю у вас обратная задача :) Обмануть поисковик. Но антиподход - тоже интересно ;) Сейчас просмотрю.

adamrich:
Все верно, видите вы даже идеи подкидываете как можно индексировать. Согласитесь что такого поисковика просто нет и пиринг сети это тоже не то они выдают только по названию файла + даже то что нашел не всегда можно скачать.

И вопрос стоял так, нужна ли такая поисковая система и будет ли она пользоваться популярностью? :) Реально ли сделать посещаемость хотябы 50К в день если она будет качественно искать любые файлы + гарантия 99% что файл можно скачать (будет чекер каждый день проверять линки если бед то не выводить в результатах). У меня просто есть возможность финансировать этот проект вот и интересуюсь мнением других.

Если смотреть глобально, то надо выделить следующие моменты:

1) Формально вы не должны выдавать в поиске ссылки на варез, если не хотите когда-то поиметь проблем с законом. Вам нужно будет научиться решать этот вопрос, если хотите вести бизнес легально. Боюсь, что автоматом эту проблему не решить. Впрочем я не юрист, здесь вам стоит проконсультироваться со специалистами. Вполне возможно, что никто не запрещает давать ссылки на варез, не храня его у себя ;-) Хотя законы в этой области на просторах СНГ изменчивы.

2) Такой сервис безусловно займет какую-то нишу при правильной раскрутке и верном маркетинговом подходе. Разумеется есть другие поисковики, но если вы будете специализироваться исключетельно на поиске файлов, то сможете их здесь "обскакать" в удобстве и функциональности (имеено в области поиска по файлам).

3) Пиринговые сети - есть такая буква - но все-таки, как верно подметили, удобства там не очень много, можно по долгу стоять в очереди за файлом. Но в области поиска вареза пиринговые сети будут основным инструментом.

Т.е. мое мнение, что сервис может быть успешным, занимая нишу поиска по легальному контенту.

mnt:
Смотря для чего вам нужно находить дубли.
Вон яндекс вроде бы умеет с дублями работать, а вы посмотрите на его новости как он сюжеты объединяет - иногда очень забавно наблюдать ;)
т.е. для того, чтобы находить более точно нечеткие дубли с помощью не важно каких алгоритмов, нужно предварительно применять устойчивую кластеризацию.

Разделение на класы похожих документов происходит всегда, не зависимо от того для чего это нужно. Разница только в том какие алгоритмы и с какими параметрами использовать. Мне нужно отлавливать дубли-кандидаты на уничтожение, чтобы очистить индекс от "почти" одинаковых страниц.

А что за модификации к натчу?

Слишком обширная тема, чтобы ответить на поставленный вопрос. Но для поисковика, обладающего небольшими мощностями вдаваться в анализ контента вообще нет смысла. Надо анализировать ссылки для отбора кандидатов на ручной анализ и бан.

Тот же трастранк подойдет.

Скорее всего, в случае отсутствия поискового запроса ранжирование идет исключительно по off-page факторам, т.е. ссылочному весу страницы.

Я, честно говоря, не совсем пойму, в чем вы видите проблему? Задача поиска по файлам достаточно тривиальна: индексируете название, индексируете текст входящих ссылок (возможно, включая некоторую дельта-окрестность), всю текстовую информацию внутри файла (например pdf - это тоже бинарные данные, но есть конвертеры в текст; очень часто в бинарных файлах есть различная метаинформация: например, id3 тэг в mp3), можно попробовать индексировать слова, входящие в путь к файлу.

При поиске давать позможность фильтрации по типу (лучше здесь использовать content-type, хотя не всегда надежный способ; как альтернатива - по расширению, но опять-таки нет гарантии, что расширение соответствует содержанию)

Sergey T:
Такое ощущение, что возвращают на место сайты, которые попали под предыдущую чистку в середине мая несправедливо.....

Вы имеете в виду те, у которых выпали страницы из индекса?

seodev:
Это он для компьютера перестанет быть дубликатом, а для пользователя он будет выглядеть абсолютно аутентично.

Насчет накладности непосредственного сравнения: если текст потенциального дубликата нужно вытаскивать из базы, то дополнительное сравнение - это не слишком накладно. По поводу алгоритма: левенштейн может подойдет только лучше не побуквенный, а пословный. Он на порядок быстрее отработает.

Все же не соглашусь, во 1ых, алгоритм сслылочной кластеризации, Locality Sensitive Hash, то это все-равно будет анализ на уровне слов, а во 2ых, вы сами же предложили пословного левенштейна ;)

В моем случае надо отлвливать прежде всего неумышленные нечеткие дубли. Например, одна и та же страница, но поменялось время в футере, добавилась форма ввода сообщения (проанализируйте, к примеру, этот форум на предмет таких непреднамеренных дублей - будет понятно, о чем я). Кроме того, было бы здорово ограничится только одной контрольной суммой на документ ;) Или же найти другие быстрые алгоритмы.

Всего: 85