Вот почитайте, интересная ветка: /ru/forum/178865
Тогда более логично поставить выбор глубины парсинга. В результате должен ещё создаваться лог файл с просканеными урлами, чтоб прога в следующий заход проходила только новые. Иначе говоря сканы разбить на этапы, кратно например 10000 страниц.
Может это будет интересно: http://www.guarantee.ru/Default.aspx?tabid=129
У меня такая же проблема была с соседкой снизу лет 15 назад. Думал над разными вариантами, но в итоге забил, так как сомневался, что сигнал нужной мощности, чтобы спалить центр пробьёт железо-бетонные перекрытия не рассеиваясь. Что-то подобное, что нужно ТС видел в одном из номеров Хакера.
P.S. Сейчас нашёл. Если ТС нужно, пусть пишет, кину линк. Отправил в личку.
Всё таки вы уверены, что это из-за СМС, а не из-за контента? Находка я так понял очень жёстко относится к дубляжу. А на саты идёт в основном: копипаст, размноженный текст и скан. При чём при удалении сайта из индекса, скорее всего некоторое время его контент ещё доступен для внутреннего сравнения на уникальность. Это касается скана. И вообще я думаю робот сможет определить скан это или нет, если такая задача будет поставлена. Про копипаст - можно не говорить и так всё ясно. А размноженный, к сожалению при больших коэффициентах размножения начинает частично дублироваться. Во всех случаях бан. Есть ли пример вылета проектов на высококачественном рерайте или живом тексте, на доменах .ru .com .org?
Он же вроде уже в Списке: /ru/forum/comment/3659308
Неее мне нравится эта фраза:
Очень похоже на отжиг.
Использовать не однословные ключевики, а многословные. Количество минус-слов резко уменьшится.
Например если я введу слово "кондиционер", то минус-слов будет много, а если "сервисное обслуживание кондиционеров chofu", то их просто нет.
Я нигде такого не писал, окститесь:) Репутация не от цифр зависит, об этом написано множество раз. Возражение по статье я высказал. Вместо того, чтобы обсудить его конструктивно, её автор полез в бутылку.
P.S. С Пелвисом прошу не смешивать.
Почти все поначалу в минусах ходили. Смысл в личку - идёт рабочее обсуждение. Вам надо было перед написанием статьи поднять аналогичные темы и сделать некий свод. А так никакого вреда от статьи нет. Скажите, вы что ожидали, что без возражений обойдётся?
Вот выдержка из правил: