spambot

spambot
Рейтинг
55
Регистрация
12.12.2008
юни:
Увы - и пул больше, и подсетей в нём, но капча непредсказуема и большинство методов перебора гасятся уже на подлёте (причины пока непонятны, к тому же на вордстате, как на довольно специфическом сервисе, не так много пространства для манёвра).

Но за мысли спасибо, попробуем.

А куки к ИП привязывали? т.е. с каждым ИП ассоциированна его личная кука и его юзер агент.

(как вариант может вордстат действительно время от времени дает страничку например с невидимой картинкой и если она не гетится юзером, то в следущий раз включается капча...)

юни:

Я в доле, если что. Тут скорее не покупка решения будет, а достаточно длительное сотрудничество (кстати - и Зонку, и мне, есть что предложить, помимо просто денег).

Отписал в личку...

как варианты:

1 - при задержке в 20 сек вордстат парсится сутками.

пусть имеем пул в 20к IP (по 10 разным сетям)

строим глобальный лист прокси наших айпи с чередованием подсетей

ip1-net0

ip1-net1

ip1-net2

...

ip1-net9

ip2-net0

ip2-net1

....

ip2000-net0

...

ip2000-net9

каждый IP имеет аттрибут - время последнего запроса.

начинаем парсить в один поток просто идя по списку и проставляя время запроса.

после прохода списка целиком можем оценить на сколько частей мы можем разделить список(исходя из времени затраченного на проход и время запросов).

например весь пулл IP был пройден за 60сек значит мы можем организовать три "бегущие волны" :) на нашем пуле.(волна следует по IP при необходимости на текущем айпи выдерживая паузу)

+ не забываем для естественности с каждым IP ассоцировать свою куку и юзер агент.

как бы навскидку вот. а вообще думаю можно много чего придумать ;)

spambot добавил 05.11.2009 в 02:34

Zonk:
с вордстатом не знаю, мне он не нужен. Думаю твои ip + anti-каптча (или распознавание если кто-то сделал, кстати, готов купить самообучающуюся программу) решат проблему.

И какова ваша цена вопроса для яндекс вордстат капчи в текущем виде? 🙄

Doorway2010:
взаимно

лезет но не в топ

Пили функцию генерации текста :) а и смартпейдс и дми доргены довольно гемморойные в установке и настройке лучше возьми смарптпейджс на месяц - оценить оно тебе надо или нет...

moneySEO:
а, так KeyWordKeeper 5 beta 5. Может содержать ошибки

а ты 4м упаришься обрабатывать большой обьем текстовки ;) разница в скорости на порядки ;)

moneySEO:
о, спаисбо.
попробую этой прогой сделать выборку себе.

при работе с большими файлами используйте 5 квк ;)

santer_ua:
Видел ДМИ нулл на нулледе :)

santer_ua добавил 04.11.2009 в 22:25


А защиту сняли? насколько я слышал там привязка к железу

гы мы ваще то пакет лицензий брали на всех, автор пошел на уступки и вроде по 23 усд на нос вышло :)

elvenman:
еще говорил что DIM рулит, про смарт слышал, а че за дим - хз, завтра разраб запостит тему по-любому))))

месяца полтора назад группу собирали на него :) ты видимо проспал те дни... 😆

fytbolka:
Понятно что он духовно богат
Переведите эту притчу на дорвейный лад,нипанятно.

;)

humbert:
В который раз открою тайну:
1. Яндекс не банит неуник - полно сателлитов, сделаных мной на неуникальном контенте в индексе Я. Большинство более 10к страниц в индексе годами висят.
2. можно вообще без текста как такового обойтись, трафа будет на порядок меньше, зато висят в индексе долго.

1 - ну и сколько ты трафа имеешь на те свои неуник ГС? что-то порядка 1 уника в день на 1к страниц ;)

2 - дык ради трафа и думают над генерацией текста, или по твоему ради славы автора очередного бредогена? 😆

По поводу маркова того же самого

можно вести статистику сочетаний слов например

круглый сыр 50 раз

груглый мяч 500 раз

и генерить нормируя по вероятности встречи т.е. чтобы в генеренном тексте круглый мяч встречался в 10 раз чаще чем круглый сыр.

тока на входе нужно прилично хорошей текстовки. например пару гиг чистого описательного текста без диалогов. (кто таким поделиться ;) ? )

Всего: 697