Именно поэтому я предлагаю брать не одно, а 3 предложения из разных мест и считать текст ТОЧНО уникальным если все 3 не нашлись... Если 2 из 3, то почти уникальным :)
Попробуйте руками и проверьте, только не забудьте про кавычки :) имхо эффективность достаточная практически для любых задач. Идти по сайтам имхо это ЖЕСТЬ.
Вы не обозначили приоритеты :) Если Ваша БД не имеет десятки (или сотни) ГБ размера, то на любой оси оно будет шевелиться... Соответственно лучше та, которую Вы знаете и умеете настраивать :)
Если размер БД будет большой, то лучше конечно Linux 64bit в дистрибе Gentoo (почему Gentoo, а чтобы по-умолчанию все собиралось точно под Ваш процессор без использования предкомпиленых бинарных либ).
Те, кто любит Joomla скажут - JOOOMLA!! Все остальные скажут неее... ;)
А если серьезно, то Joomla сама по себе довольна дружелюбна и проста в настройке, функциональность необходимая Вам там есть, можно ей и воспользоваться если не планируется феноменальной посещаемости :)
Можно страницы с сайтов не грузить, достаточно пользоваться сниппетами. Для поиска лучше из текста вытаскивать 3 предложения, одно с начала, другое с середины и одно с конца текста. Дальше с кавычками отправлять в гугл... Несколько лет назад делал такое, работало как часики.
Все зависит от кол-ва потоков, 4 формы в минуту в один поток, это достаточная производительность для промышленного спам-бота. Сейчас при помощи антигейта скорость составляет примерно 3 формы в минуту, и ничего, как-то работает ;)
Во-первых слабые ЦПУ на планшетах и прочих мобильных телефонах. Во-вторых причем тут скорость ЦПУ как таковая? Что у спам-бота слабее ЦПУ чем на любом другом компьютере?
Если "высоконагруженная задача", которая должна спасать от спама, будет "подвешивать" браузер, то пользователь просто закроет сайт и все. А если не будет подвешивать, то и спам-бот спокойно будет делать свое дело...
Вы совсем не знаете и не понимаете как работает Joomla исходя из данных Ваших утверждений, автор топика, на который Вы ссылаетесь, тоже новичок, как он сам признался. Сломать и заставить не работать можно все что угодно.
Дорогой Геннадий, на нашем сайте есть пункт меню SUPPORT, мы отвечаем любому пользователю, и достаточно оперативно, по любому вопросу который касается нашего продукта на русском и английском языке.
Геннадий, кто Вас хорошего оскорблял? Вы ведь самый честный и милый человек во вселенной ;) именно по этой причине Вас даже оскорблять не надо, Вы сами все делаете для того, чтобы люди воспринимали Вас адекватно, так как Вы этого заслуживаете ;)
Врали Вы мой милый друг вот в этом утверждении:
Так как в плагине KeyCAPTCHA для Joomla нет защиты логина админки. Именно по этой причине его там и нет, поскольку вебмастер может не очень понимать что делает и из-за этого потерять доступ к сайту.
В других капчах, которые он наустанавливал возможно есть такая функциональность, а вот в нашей нет, так что НЕ НАДО ВРАТЬ. Геннадий Вы в очередной раз продемонстрировали свою замечательную сущность :)
Геннадий, вы ДОСТАЛИ ВРАТЬ уже, прочитайте еще раз что человек пишет, зачем Вы левые ссылки постите. Где там хоть слово о том, что это KeyCAPTCHA виновата. Человек пишет что он новичок и наустанавливал кучу всяких плагинов, а потом у него все перестало работать...
Плагин KeyCAPTCHA для Joomla не интегрирует капчу на вход в админку, в нем НЕТ такой функциональности. Такая функция есть только в плагине под WP.
Изменения в наших внутренних алгоритмах защиты никак не сказываются на работе плагинов.