Потому что нагрузку нужно создавать пропорционально, а не просто загнав несколько десятков тысяч слов, далеко не всегда нужно все из них сканировать, это касается и анализа через сервисы и через ПС.
Нужно понимать, что не один такой, кто парсит
не ну аудиты, это уже не договора, здесь уже не все так просто
Если договор - набор стандарт пунктов + свои примочки и старховка жо..
то над аудитом уже индивидуальная, а не шаблонная работа идет
ну и где? :)
в хелпе у нас расчет не на такие объемы парсинга, это нужно понимать
может, но для таких зверских объемов не обойтись 50 проксями, возьмите хотя бы 200 хороших проксей
ну загнать 24к слов на оценку в ссылочных агрегаторах, я не удивлюсь, если аккаунт забанят
ну вообще, как бы грубо это не звучало , но это п...ц
я бы на месте ПС тоже забанил давным давно такие обращения со скольки проксей бы оно не шло, тем более с таким малым таймаутом
В парсинг подсказок нужно выводить не ВСЕ слова, а только направления!
Я не удивлюсь если следующим шагом при таком подходе будет бан аккаунтов в других системах.
в 70% случаев примерно именно отдельный процесс, т.к. в 90% случаев я пользуюсь кнопкой "парсить все" и по обстоятельствам смотрю что лучше отключить, если не так пошло или нужно перезадать параметры, но это индивидуально у каждого.
количество не буду называть, но с внедрения версии 2, с НГ, это гораздо больше, чем было ДО и тут уже не может быть спонтанных изменений, привычки порой выше стоят, чем многие моменты.
велика вероятность ошибки:
1 - промахнулся
2 - привыкли уже к такому (а сила привычки велика)
проверим
работа со словами в несколько сотен тысяч запросов, станет более удобной, т.к. сейчас файл проекта в 500-600 мб, со словами, считаем в памяти висит, при парсинге, если еще и в 50-100 потоков парсить, то он порядка 1гб+ будет занимать.
Если постранично сделать, то для парсинга будет удобней, на мой взгляд, при этом работать с ядром можно и общим списком.
Как-то так
Да, забыл уточнить, прошу высказываться жителей РФ :)))
а не мечтателей из других стран, а также теоретиков "в законе".
Тут есть ряд вопросов, с точки зрения налогов и почты.
1. Есть перечисление через рапиду, на почту, тут прозрачно - государство знает.
2. Есть перечисление через рапиду, по форме (шаблону) на вебмани, тут как бы почта обходится лесом, почта не знает, государство не знает.
Во втором варианте есть лишь один момент, который хотелось бы уточнить, дак это по данным в рапиде, насколько они "известны" государству и какая отчетность, есть ли слив, по второму варианту.
Знатоки рапиды есть?
Это не количество. Это то значение, тот уровень в глубину, на который будет исследовано КАЖДОЕ слово.
Чем выше число - тем глубже и медленней.
Пока не реализовывали, ибо список будет постоянно пополняться, его нужно актуализировать, следить за этими изменениями.
рамблер мертвая поисковая система, ей не известно понятие регион
Коллектор запрограммирован на МАКСИМУМ, ограничений мы не придумывали.
Нет, с глубиной нужно исследовать ТЕМАТИКУ, а не слово
У гугла нет такого разделения
http://www.google.ru/support/mobile/bin/answer.py?hl=ru&answer=37427 например,
Сделаем в мануал подборку ссылок на справку http://www.google.ru/support/websearch/
Сейчас на память не найду эти сведения
тоже парсит, не отключали, теперь суммарные значения
Если нет - скрин в личку, посмотрим