Кнопки действительно с незапятных времен. Кроме того, мало просто дать пользователям такой инструмент. Надо как-то мотивировать их к его использованию ;) Мало кто будет голосовать "от нечего делать"
А как я в свое время купился :) уже начал монитор трясти, чтобы вытряхнуть эту букашку изнутри.
Про SearchDefender читал, но здается мне, что это "утка", а алгоритм на самом деле другой.
Кстати, как относится МСН к обмену ссылками? Ссылкам с рускоязычных сайтов на англоязычные?
То-то и я удивился :) Какое-то космическое время в первый раз было получено.
Что имеется в виду?
Кстати, MSN в один момент изменил свой алгоритм (весной по-моему), когда начал активно бороться со спамом. Наверняка, знающие люди уже раскусили, что поменялось. ;) Одно понятно точно, что просто большое число бэков не помогает. Что же же ему нужно?
К сожалению, я не знаю open source решений, которые после небольших доработок можно было бы применить для ваших нужд, там более, что речь идет об интеграции с уже существующей системой.
Давать оценку также вряд ли кто возьмется без рассмотрения уже существующей у вас системы.
Если объем "финтифлюшек", как вы говорите, больше объема дублируемого текста, то вряд ли это можно назвать небольшими изменениями - сами подумайте ;) Если текст включается в другой текст, больший его по объему, то речь идет о включении(см. мое сообщение выше)
"На одной машине"? А натч настраивали, чтобы он не делал принудительные задержки при обращении к одному серверу? +ограничение на число потоков индексатора на один индесируемый сервер.
Сложного точно ничего нет, но:
1) SQL база врядл ли будет хороошим решением, прежде всего в плане масштабируемости. Хотя если дальше 5 млн у вас нет планов двигаться - то решение с базой подойдет.
2) Я не очень понимаю нишу вашего сервиса? Это _тематический_ поиск по картинкам? Т.е. вы захватываете определенную тематику? Или регион? По какм=им критериям отбираются эти 5 млн.
Скажем так, как правило, существующие методы не варьируются от вышеназванных акцентов. Разве что есть варирование между между алгоритмами на "похожесть" и на "включение", но если говорить о "небольних изменениях", то класс методов один.