А куки к ИП привязывали? т.е. с каждым ИП ассоциированна его личная кука и его юзер агент.
(как вариант может вордстат действительно время от времени дает страничку например с невидимой картинкой и если она не гетится юзером, то в следущий раз включается капча...)
Отписал в личку...
как варианты:
1 - при задержке в 20 сек вордстат парсится сутками.
пусть имеем пул в 20к IP (по 10 разным сетям)
строим глобальный лист прокси наших айпи с чередованием подсетей
ip1-net0
ip1-net1
ip1-net2
...
ip1-net9
ip2-net0
ip2-net1
....
ip2000-net0
ip2000-net9
каждый IP имеет аттрибут - время последнего запроса.
начинаем парсить в один поток просто идя по списку и проставляя время запроса.
после прохода списка целиком можем оценить на сколько частей мы можем разделить список(исходя из времени затраченного на проход и время запросов).
например весь пулл IP был пройден за 60сек значит мы можем организовать три "бегущие волны" :) на нашем пуле.(волна следует по IP при необходимости на текущем айпи выдерживая паузу)
+ не забываем для естественности с каждым IP ассоцировать свою куку и юзер агент.
как бы навскидку вот. а вообще думаю можно много чего придумать ;)
spambot добавил 05.11.2009 в 02:34
И какова ваша цена вопроса для яндекс вордстат капчи в текущем виде? 🙄
Пили функцию генерации текста :) а и смартпейдс и дми доргены довольно гемморойные в установке и настройке лучше возьми смарптпейджс на месяц - оценить оно тебе надо или нет...
а ты 4м упаришься обрабатывать большой обьем текстовки ;) разница в скорости на порядки ;)
при работе с большими файлами используйте 5 квк ;)
гы мы ваще то пакет лицензий брали на всех, автор пошел на уступки и вроде по 23 усд на нос вышло :)
месяца полтора назад группу собирали на него :) ты видимо проспал те дни... 😆
;)
1 - ну и сколько ты трафа имеешь на те свои неуник ГС? что-то порядка 1 уника в день на 1к страниц ;)
2 - дык ради трафа и думают над генерацией текста, или по твоему ради славы автора очередного бредогена? 😆
По поводу маркова того же самого
можно вести статистику сочетаний слов например
круглый сыр 50 раз
груглый мяч 500 раз
и генерить нормируя по вероятности встречи т.е. чтобы в генеренном тексте круглый мяч встречался в 10 раз чаще чем круглый сыр.
тока на входе нужно прилично хорошей текстовки. например пару гиг чистого описательного текста без диалогов. (кто таким поделиться ;) ? )