matik,
-ну, главное кворум набрать... Я бы предложил 2 мая (пон.) в ту же Трехгорку бы...
Если решите в городе - сообщите, когда и где, я подтянусь.
Поздравляю!
типа так:
Имхо, пейнтбол вряд ли прокатит, это надо команды набирать. что такое вертолет. вообще не понял... картинг под пиво... "при чем тут пиво сокол" :)
А без вертолета, картинга и т.п. неясно. в чем преимущество этой площадки...
Я бы предложил, кстати, ближайшие выходные (1 мая). А то ждать долго.
На релевантность вообще ничто не влияет... Если по секрету, то ее вообще не существует... :)
Прикольно!
Кстати, сразу увидел забавное: 2 ссылки на разные страницы сайта с одной страницы донора - с 2 разными словосочетаниями. И оба словосочетания в "тайтле" ссылки!
Надо было сразу сказать в постановке задачи - четкие дубли вы хотите найти или нечеткие. Если четкие - то хэша всего текста должно хватить... Если нечеткие - то шинглы надо использовать.
"на сотни страниц" - это расплывчато: и от 300 до 200, и от 101 до 1 :)
-если у CRC32 вероятность коллизии 0.002, как говорили выше, то вероятность слипания шинглов из N слов - соотвественно, что-то вроде 0.002^N. Так что наверное, можно использовать вполне - для предварительного отлова дубликатов. А потом уже подтверждать, что это дубликаты - более ядреными методами.
Хотя Сегалович в своем примере в статье про шинглы явно не CRC32 использовал...
Есть такое тоже.