Mr. Third

Рейтинг
114
Регистрация
07.07.2006

Спасибо за Ваше мнение.

SavaHost:
Не страшно, хотя доску загаживают изрядно. Помогает проверка количества объявлений в сутки от одного юзера - отсеевает 80% спама.

Я имел в виду, что многие пользователи имеют текст объявления сохраненным локально, например в файле Word, и с разрешенной периодичностью (скажем, раз в несколько дней) просто заходят на доску и создают объявление методом copy-paste из своего вордовского файла в форму отправки. И таких практичных пользователей много. Отсюда, собственно, и рождаются точные дубликаты. Убедить пользователей не создавать новые объявления, а актуализировать ("поднимать") старые, как показывает практика, нереально.

labsmoseo:
Зачем чем вам мешают дубликаты?

Слышал, что для поисковых систем нездорово, когда на сайте присутствует много страниц с одной и той же информацией. Например, у меня есть проект-каталог, в нем есть разные опции сортировки записей (например, по алфавиту, по дате добавления, по популярности) - все страницы с сортировками, отличными от сортировки по умполчанию, я закрыл для индексации. Но там это было сделано изначально, а здесь ситуация несколько иная - удалять информацию из индексов не сразу, а через некоторое время. Хочется понять, как это лучше сделать (свои пришедшие в голову варианты - в первом сообщение), ну и стоит ли, конечно. Ваше мнение - не стоит?

Mr. Third добавил 10.04.2009 в 22:21

SavaHost:
1. Какое то время Вам будет хотеться сохранять все объявления (кол-во страниц, НЧ запросы, и т.д.). Это правильно и нормально. Пусть всё лежит - хуже не будет.
2. Потом (в зависимости от скриптов - с 100.000-500.000 объявл.) Вам начнёт мешать огромная масса - будет вешать базу, глючить, тормозить при поисках. Удаляйте на автомате старые, которым квартал-полгода-год (решите на месте, по обстоятельствам).

Вы говорите о чисто технических проблемах, которые могут возникнуть в связи с большим количеством объявлений. Давайте представим, что технических проблем нет, и поговорим о проблемах "поисковых". Разве это нормально, когда в индексе поисковика будут сотни дубликатов (отличющихся незначительно или вообще только датой размещения, так как многие пользователи публикуют объявления методом copy-paste) сотен объявлений?

Или еще можно вопрос развернуть по-другому, совсем забыть про дубликаты и спросить так:

Допустим принято решение устаревшие данные (число которых ежедневно исчисляется сотнями страниц) из индексов изымать. Как это грамотнее делать - сносить и выдавать 404-ю ошибку или ставить noindex? Это ничего, что на сайте с точки зрения поисковика будет постоянное добавление-удаление многих страниц?

maxttor:
спасибо, решил все сделать на php )

На bash-то все совсем просто. Делается текстовый файл с нужными командами, например:

open ftp.host.ru

user username password

binary

put local/file/name remote.name

close

quit

А потом `cat этот_файл_с_командами | ftp -n -v`

Метод с небольшими модификациями работает даже под windows, кажется. Ну или man ncftpput действительно.

eServer.ru:
Список наших ключевых клиентов говорит сам за себя (посмотреть).

Тоже выбираю хостера на аренду с сентября. Честно сказать, список клиентов у вас как раз я бы не назвал особо впечатляющим. Сходу не увидел ни одного проекта, который можно было бы назвать широко известным...

Более слабые (и, соответственно, дешевые) серверы, чем на C2D, вы теперь совсем не предлагаете?

Для снижения нагрузки на сервер я бы зафильтровал некоторые заведомо динамические хосты типа ppp.tiscali.fr на уровне /etc/mail/access (а еще лучше поставить что-нибудь типа milter-regex), чтоб dnsbl'ы каждый раз не дергать, а особо часто долбящихся спамеров дропать на уровне файрвола, чтоб до сендмейла даже не добирались.

Введите в гугле 'mod_evasive lighttpd'. Результаты ненулевые, которые как минимум подтвеждают, что в природе существует mod_evasive для лайти. Подробнее разбираться не хочется :)

Просто lsmod без параметров. Вроде у него и нет никаких допустимых параметров. У меня выводится список из 20 модулей. У Вас VDS? Если так, то возможно там есть какие-то особенности... Наверное, Вам лучше обратиться за советом к провайдеру, наверняка он подскажет строку для iptables, которая будет ограничивать коннекты с IP.

Ну, не судьба, наверное. :) У меня на линуксах по умолчанию connlimit тоже нет, а recent всегда было. Команда `lsmod` что выдает? Она вроде должна выводить доступные модули iptables.

На действие mod_evasive, наверное, больше всего похоже расширение recent iptables'ов. Например, что-то типа такого (по памяти):

iptables -A INPUT -p tcp --dport 80 --syn -m recent --rcheck --seconds 5 --hitcount 10 -j DROP

iptables -A INPUT -p tcp --dport 80 --syn -m recent --set -j ACCEPT

разрешит 10 соединений с айпишника по http порту в течение 5 секунд. Если нет connlimit, то recent вполне может быть доступен. Подробнее - man или, возможно, кто-нибудь здесь меня поправит...

m@s:
Устаканилось вроде.

Вчера весь день работал нормально, но в конце дня (часа за два-три до полуночи) все равно "застыл" на одном значении, так в дневную статистику и ушло.

Всего: 127