Борьба с не точными дублями.

12 3
lastadm
На сайте с 15.01.2006
Offline
169
1724

Яндекс научился побеждать дубликаты снипетов, вроде как умеет распозновать не точные дубли информации, чем мы хуже :) :) :)

Встал вопрос создания доски объявлений.

Спам почти победили. (бобро всегда побеждает сло)

Теперь пытаемся бороться с неточными дублями.

Вроде более менее работает алгоритм поиска соответсвий словоформам без учета пунктуации в каждом обьявлении доски и отсев соответсвий на уровне 80-90 процентов - но это очень затратно по ресурсам, тем более что доска растет.

Может кто подскажет здравую идейку :) ?

Изучаем правила форума ()
[Удален]
#1

А что, тот же вариант с яндексом принципиально не подходит ?

lastadm
На сайте с 15.01.2006
Offline
169
#2
lastadm:
А что, тот же вариант с яндексом принципиально не подходит ?

А он известен до мелочей в реализации? :) :)

Поделитесь :) буду благодарен :)

[Удален]
#3

Может прямо тогда скрипт у них купить ? Или у кого-нибудь еще, причем такой, чтобы он для конкретной доски обьявлений подходил и под конкретную платформу ? И чтобы его они сами и прикрутили ?

Только это тогда в работу для вебмастера надо.

lastadm
На сайте с 15.01.2006
Offline
169
#4
Miha Kuzmin (KMY):
Может прямо тогда скрипт у них купить ? Или у кого-нибудь еще, причем такой, чтобы он для конкретной доски обьявлений подходил и под конкретную платформу ? И чтобы его они сами и прикрутили ?

Только это тогда в работу для вебмастера надо.

Не надо ехидничать ... Миша, я тоже умею стебаться не хуже ...

Я пытаюсь обсудить конкретные вещи, покупка готового скрипта меня пока не интересует, тем более, что предложений я не видел.

[Удален]
#5

lastadm, кстати да, сам над собой не хуже 😂 Значит, купить не пытаемся, софта у самого нет, алгоритм тоже не нужен (ибо в мелких деталях неизвестен - то есть не софт). Логичен следующий вопрос - а надо то что ? 😂

lastadm
На сайте с 15.01.2006
Offline
169
#6
lastadm:
А он известен до мелочей в реализации?

Поделитесь буду благодарен

............ по моему я сказал, что как раз нужен? или нет ? :) :) :)

[Удален]
#7

По моему, шинглы того же яндекса - это идея и есть, причем высказанная в самом начале. Если ее ниасиливаете, значит не программист или плохой программист. Хотя и в том и в другом случае все равно нанимать другого специалиста, который сам будет вынужден во все вникать (или уже знает).

lastadm
На сайте с 15.01.2006
Offline
169
#8

Если бы я знал все, я бы не спрашивал :)

Тем не менее спасибо за ответ :) хотя был бы благодарен например этой ссылке /ru/forum/21794

П.С: я далеко не программист

pro-maker
На сайте с 08.12.2003
Offline
281
#9
lastadm:
Теперь пытаемся бороться с неточными дублями.
Вроде более менее работает алгоритм поиска соответсвий словоформам без учета пунктуации в каждом обьявлении доски и отсев соответсвий на уровне 80-90 процентов - но это очень затратно по ресурсам, тем более что доска растет.

Может на доске объявлений для борьбы с дублями использовать методы попроще?

Например, записывать IP, контактную инфу (телефон) и по ним накладывать условия ввода - не давать юзеру форму ввода при наличии объявы на первых страницах, ограничивать по интервалам времени между объявлениями и т.д. По фильтрованным контактам легче отлавливать дубликаты. :)

lastadm
На сайте с 15.01.2006
Offline
169
#10

pro-maker, иногда один и тот же пользователь размещает и несколько "нормальных" обьявлений, а потерять его не хотелось бы.

pro-maker:
По фильтрованным контактам легче отлавливать дубликаты.

Да, совпадение контактной информации подаваемого обьявления с тем, что уже есть в базе, позволит более пристально обратить внимание на подаваемое обьявление :) :)

Спасибо :)

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий