euhenio

euhenio
Рейтинг
357
Регистрация
21.09.2001
Должность
ИП: продвижение и создание сайтов, увеличение конверсии

matik,

куда и когда?

-ну, главное кворум набрать... Я бы предложил 2 мая (пон.) в ту же Трехгорку бы...

Если решите в городе - сообщите, когда и где, я подтянусь.

Поздравляю!

типа так:

jpg 6652.jpg

Имхо, пейнтбол вряд ли прокатит, это надо команды набирать. что такое вертолет. вообще не понял... картинг под пиво... "при чем тут пиво сокол" :)

А без вертолета, картинга и т.п. неясно. в чем преимущество этой площадки...

Я бы предложил, кстати, ближайшие выходные (1 мая). А то ждать долго.

На релевантность вообще ничто не влияет... Если по секрету, то ее вообще не существует... :)

Прикольно!

Кстати, сразу увидел забавное: 2 ссылки на разные страницы сайта с одной страницы донора - с 2 разными словосочетаниями. И оба словосочетания в "тайтле" ссылки!

Надо было сразу сказать в постановке задачи - четкие дубли вы хотите найти или нечеткие. Если четкие - то хэша всего текста должно хватить... Если нечеткие - то шинглы надо использовать.

"на сотни страниц" - это расплывчато: и от 300 до 200, и от 101 до 1 :)

Пытаюсь чистить выборку и удалять дублирующую информацию (точнее дубликаты и почти-дубликаты), с помощью шинглов

-если у CRC32 вероятность коллизии 0.002, как говорили выше, то вероятность слипания шинглов из N слов - соотвественно, что-то вроде 0.002^N. Так что наверное, можно использовать вполне - для предварительного отлова дубликатов. А потом уже подтверждать, что это дубликаты - более ядреными методами.

Хотя Сегалович в своем примере в статье про шинглы явно не CRC32 использовал...

Есть такое тоже.

Всего: 4720