Polimer

Polimer
Рейтинг
84
Регистрация
01.09.2006

по одному моему сайту — январский серп 1 в 1 (первые 30 позиций — доски, нормальные сайты ниже)

+1 — повтор январских глюков (ИМХО, конечно :) )

различных cms много и простых и сложных... www.cmslist.ru/free - выбирайте

имхо, для ваших целей подойдет, к примеру, modx www.modx.ru

отпад:

Регистрация в каталоге AbiLogic 10:11
Сайт принят к рассмотрению (Basic) 10:17
Ваш сайт размещен в каталоге 10:18

вот это оперативность, спасибо :)

p.s. Там реально модератор так быстро работает или автомат? ;)

то, что подтвердились — уже интересно. спасибо и на этом

XTR, сделал сайт с "висящими" страницами? Какие результаты?

XTR:
Что касается чистки дублей - я уже думал об этом, но какой алгоритм применить для вычисления похожих объявлений пока не знаю. Сравнивать побайтно смысла нет (добавил 1 буковку и привет), можно устанавливать степень похожести (я знаю, есть такие алгоритмы - правда не знаю, на сколько они сложны в реализации) и при сильной похожести (на 90%, например) отфутболивать :)

Нормальный алгоритм поиска дублей пока не реализован (иначе, почтового спама уже не было бы).

Здесь есть несколько решений:

1. Анализировать только контакты оставленные в объявлении. Ну и, к примеру, если есть объявление с контактным телефоном младше 2-х недель, отфутболивать.

+ Хорошо, довольно точно определяются дубли
- Плохо, этим способом отшиваются пользователи, которым надо оставить разные объявления с одним контактом

2. Класть пользователю куки (сроком так на год :) ), в которых записывать некий id, а в базе на серваке вести лог активности этого юзера. Не приниамешь куки, значит ты бот, постить не будешь.

+ Хорошо, просто реализуется, работает прозрачно для юзера, контакты можно хоть вообще не заполнять.
- Плохо, куки можно убить, и вернуться на доску с "чистой совестью" и продублировать объявление

3. Реализовать алгоритм поиска нечетких дублей оптимальной фильтрацией (пик корреляции ко множеству вхождений).

+ Хорошо, при правильной реализации, в теории, алгоритм должен давать превосходный результат (к примеру, подобным образом работают OCR-системы)
- Ужасно... Хоть и реализовать в принципе не сложно, но тормозить будет... мама не горюй, особенно по большой базе

На практике лучше использовать сочетания методов 1 и 2. Либо методов 1 и 3, если рассматривать только поле контактов.

p.s. Понесло чего-то меня... Простите люди добрые за много букв. Надо меньше работать, башню рвет. 🙅

так и есть, неверный content-type

http://www.be1.ru/stat/?url=http%3A%2F%2Firk-bis.ru%2F

если сайт на php, попробуйте добавить в самое начало:

Header('Content-Type: text/html; charset=windows-1251');

Хмм... :)

Оно! Спасибо. Теперь осилю :p

Lor:
А-а-а, ученые ... ну так пусть пишут патенты - это их проблемы, а наша забота - сайты делать.
Если "правильные" сайты делать, то патенты можно не читать. :D

Ну, ученые-неученые, а фильтр "-950", основанный на этом патенте судя по сообщениям (неофициальными), у гугла уже работает.

Про "правильные" сайты абсолютно с вами согласен, но и в реализации различных фильтров могут быть баги и никто не застрахован от "случайных" санкций.

полагаю, в тему. фильтр -950

http://www.seroundtable.com/archives/007437.html

а вот труды Анны:

http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.html&r=1&p=1&f=G&l=50&d=PG01&S1=20060294155.PGNR.&OS=dn/20060294155&RS=DN/20060294155

(методика определения проспамленных документов поисковиками)

ахтунг, много букв, все не по-русски

😒 где бы найти хороший перевод (нереально, полагаю).

сам не осилил (пока)

Всего: 362