babnicks

babnicks
Рейтинг
47
Регистрация
23.10.2009
Boneshock:
Да, верно, надо попробовать сначала. А про то что брать текст с сайтов из выдачи - ну так ведь встретилась какая-нибудь фраза в каком нибудь сайте ну и что? а вдруг остальной текст совсем про другое? это если брать фразами(шинглами т.е.). Опять же если брать как вы предлагаете предложения, то это если явный копипаст, а если слова просто местами поменяли?
Вообщем, надо думать...

Именно поэтому я предлагаю брать не одно, а 3 предложения из разных мест и считать текст ТОЧНО уникальным если все 3 не нашлись... Если 2 из 3, то почти уникальным :)

Boneshock:

babnicks, сниппетами? всмысле сравнивать с тем что выдает поисковик по запрошенному шинглу? думаете эффективность будет высока?

Попробуйте руками и проверьте, только не забудьте про кавычки :) имхо эффективность достаточная практически для любых задач. Идти по сайтам имхо это ЖЕСТЬ.

salvat:
Собственно, какая ОС лучше для сервера MYSQL?

Вы не обозначили приоритеты :) Если Ваша БД не имеет десятки (или сотни) ГБ размера, то на любой оси оно будет шевелиться... Соответственно лучше та, которую Вы знаете и умеете настраивать :)

Если размер БД будет большой, то лучше конечно Linux 64bit в дистрибе Gentoo (почему Gentoo, а чтобы по-умолчанию все собиралось точно под Ваш процессор без использования предкомпиленых бинарных либ).

Mr.k:
А кто что скажет по поводу данной реализации на Joomla?

Те, кто любит Joomla скажут - JOOOMLA!! Все остальные скажут неее... ;)

А если серьезно, то Joomla сама по себе довольна дружелюбна и проста в настройке, функциональность необходимая Вам там есть, можно ей и воспользоваться если не планируется феноменальной посещаемости :)

Boneshock:

Исходный текст канонизируем, разбиваем на шинглы. Далее берем первый шингл исходного текста, отправляем get-запрос например яндексу на получение скажем 20 первых результатов. Далее, пробегая по ответам парсим текст с этих двадцати сайтов и сравниваем каждый с исходным(методом шинглов само собой).

Можно страницы с сайтов не грузить, достаточно пользоваться сниппетами. Для поиска лучше из текста вытаскивать 3 предложения, одно с начала, другое с середины и одно с конца текста. Дальше с кавычками отправлять в гугл... Несколько лет назад делал такое, работало как часики.

Solmyr:
Если его производительность ограничить 4мя формами в минуту, он потеряет смысл.

Все зависит от кол-ва потоков, 4 формы в минуту в один поток, это достаточная производительность для промышленного спам-бота. Сейчас при помощи антигейта скорость составляет примерно 3 формы в минуту, и ничего, как-то работает ;)

Solmyr:
Есть подозрение что пользователей за слабым ЦПУ мало, и на них можно класть болт точно так же, как сейчас кладут болт на пользователей с IE 6.

Во-первых слабые ЦПУ на планшетах и прочих мобильных телефонах. Во-вторых причем тут скорость ЦПУ как таковая? Что у спам-бота слабее ЦПУ чем на любом другом компьютере?

Если "высоконагруженная задача", которая должна спасать от спама, будет "подвешивать" браузер, то пользователь просто закроет сайт и все. А если не будет подвешивать, то и спам-бот спокойно будет делать свое дело...

Не Совсем:

Там, в этом процитированном мной топике, нет ни слова про админку

Вы совсем не знаете и не понимаете как работает Joomla исходя из данных Ваших утверждений, автор топика, на который Вы ссылаетесь, тоже новичок, как он сам признался. Сломать и заставить не работать можно все что угодно.

Не Совсем:

Если Вас так задевает написанное в том топике, то Вы бы и отвечали автору,

Дорогой Геннадий, на нашем сайте есть пункт меню SUPPORT, мы отвечаем любому пользователю, и достаточно оперативно, по любому вопросу который касается нашего продукта на русском и английском языке.

Не Совсем:

при чём тут тапёр (чел, процитировавший другого), зачем нужно офф-топить этот топик, переводя его на личности и оскорбления?

Геннадий, кто Вас хорошего оскорблял? Вы ведь самый честный и милый человек во вселенной ;) именно по этой причине Вас даже оскорблять не надо, Вы сами все делаете для того, чтобы люди воспринимали Вас адекватно, так как Вы этого заслуживаете ;)

Не Совсем:

И, где я врал? Просто написал, что надо учитывать, что капчи сторонних сервисов неподконтрольны вебмастеру и можно оказаться "dans la m..de" ... в ситуации, в которой оказался иностранный товарищ

Врали Вы мой милый друг вот в этом утверждении:

Не Совсем:

Тут, вот, вебмастер пишет, что потерял сайт и неделю его переустанавливал из бэкапа после того, как KeyCAPTCHA перестала его пускать коннектиться к своему собственному сайту

Так как в плагине KeyCAPTCHA для Joomla нет защиты логина админки. Именно по этой причине его там и нет, поскольку вебмастер может не очень понимать что делает и из-за этого потерять доступ к сайту.

В других капчах, которые он наустанавливал возможно есть такая функциональность, а вот в нашей нет, так что НЕ НАДО ВРАТЬ. Геннадий Вы в очередной раз продемонстрировали свою замечательную сущность :)

Не Совсем:
Или, благодаря капче...

Тут, вот, вебмастер пишет, что потерял сайт и неделю его переустанавливал из бэкапа после того, как KeyCAPTCHA перестала его пускать коннектиться к своему собственному сайту

А перестала - после того, как, в очередной раз, опубликовали скрипт для автоматического распознавания/прохождения KeyCAPTCHA и разработчики изменили алгоритм работы своего стороннего капча-сервиса

Геннадий, вы ДОСТАЛИ ВРАТЬ уже, прочитайте еще раз что человек пишет, зачем Вы левые ссылки постите. Где там хоть слово о том, что это KeyCAPTCHA виновата. Человек пишет что он новичок и наустанавливал кучу всяких плагинов, а потом у него все перестало работать...

Плагин KeyCAPTCHA для Joomla не интегрирует капчу на вход в админку, в нем НЕТ такой функциональности. Такая функция есть только в плагине под WP.

Изменения в наших внутренних алгоритмах защиты никак не сказываются на работе плагинов.

Всего: 281