Дорген PandoraBox - вопросы и ответы + апдейты. Часть 2

realefs
На сайте с 27.06.2010
Offline
87
#471
GAGAn:

Ребяты а можно как то сделать динамическую перелинковку? Ну к примеру есть блок ссылок и он меняется каждый раз при обновлении страницы. Иль нельзя?

пыхой же. читаешь файл со ссылками, в массив, шафл, взял n значений, вывел.

Рубероид дорожает.
TopperHarley
На сайте с 24.03.2009
Offline
350
#472

Попробуйте через макрос VARIANT внутри которого банальный RANDLINK

PandoraBox - генератор #1 ( https://pandoraboxx.ru ) :: ContentBox - Новый многопточный парсер текста,картинок,видео и т.д. ( https://pandoraboxx.ru/contentbox.php ) :: Конвертор шаблонов WP/DLE ( https://pandoraboxx.ru/templateconvertor.php )
_Snake_
На сайте с 06.12.2010
Offline
151
#473
GAGAn:
realefs, четко, спасибо.
Ребяты а можно как то сделать динамическую перелинковку? Ну к примеру есть блок ссылок и он меняется каждый раз при обновлении страницы. Иль нельзя?

1)Читаешь сатмап, собираешь ссылки

2)Дампишь, ссылки в sqlite

3)Т.к. дампиться будет один раз, id в таблице будет идти сплошняком, без дыр, поэтому не надо будет делать тяжелый запрос random(), достаточно сгенерировать с помощью php функции rand() список id в диападозе от 1 до числа равного кол-ву ссылок в базе и сделать выборку по этим id.

Не придётся держать весь массив ссылок в памяти. Запросы для выбора по id лёгкие, потому сервер не будет грузиться.

Ну, а если ресурсов не жалко, то просто читай сайтмап, с помощью preg_match_all выбираешь все ссылки, с помощью shuffle перемешиваешь массив. И потом циклом for выводишь нужное кол-во ссылок.

tapakah2001
На сайте с 25.05.2002
Offline
140
#474

У меня вопрос про проксичекер. Вообще, при некоторой недоработаннсти продукта, он мне очень нравится и по какой-то странной причине, он выдает намного больше рабочих проксей, чем всякие альтернативные продукты. Так что даже имея лицензии на "альтернативные", я пользуюсь проксичекером пандоровским бОльшую часть времени...

Вопрос вот в чем. Инструкции как всегда нету, поэтому надеюсь на автора.

В настройках прокси чекера, для чекинга прокси на валидность, есть такое:

Обращаться к ресурсу: http://www.google.com

В ответе должно быть: <title>Google|src="/sorry/image?id=|/sorry/IndexRedirect?|<h1>We're sorry...</h1>|your computer or network may be sending automated queries.|//support.google.com/websearch/answer/

И вот тут у меня когнитивный диссонанс. Судя по написанному, чтобы прокси был засчитан как рабочий, надо, чтобы гугль дал отлуп!!! То есть в ответе ДОЛЖНО быть "сорри идите в задницу", что довольно таки странно логически, нет?

Может быть там должно быть написано "в ответе НЕ должно быть:" и тогда все сходится - если гугль не выдает "сорри" а открывается успешно, то все в порядке? Потому что иначе это реально не имеет никакого смысла.

Полагаю что там все же забыли написать "не" в стринге. Если я прав, то второй вопрос:

Я парсю яшу. Мне важнее яша. Как правильно прописать в проксичекере яшу? В смысле ее бан-ответ, означающий что прокси не подходит.

Вообще, чекер рулезный, я с его помощью через прокси спокойно паршу гигабайты текстовки Контент Боксом. Но если приделать к нему чуть чуть полезностей, то будет совсем. Можно пару предложений?

1. Оно выплевывает капчи иногда, когда ресурс с проксями требует ввести капчу, и ждет. Кстати имплементация глючная, после ввода пары тройки капчей вываливается ошибка и чекер умирает. Ну это баг, а вот запрос фичи: можно ли в конфиге прописать ему сервис для распознавания капчи (у меня капмонстер2, прекрасно работает с Контент Боксом, почему бы не подружить его с проксичекером?)

2. В настройках типа прокси хотелось бы иметь возможность объединить http и https, а также socks4 и 5 в одном пункте. А то щас оно ищет ЛИБО http ЛИБО https ЛИБО сокс 4 ЛИБО 5. А многие проги принимают http И https, или socks 4 И 5 сразу. Предложенное мной сильно бы повысило полезность чекера. То есть я предлагаю к существующему в дропдауне добавить два пункта к имеющимся.

3. Сделать авто-убой источников не содержащих прокси или дохлых. А то допустим закинул я чекеру пару десятков свежих проксей, оно напарсило кучу источников, а среди них дофига дохлых. И болтаются они и жрут ресурсы. Убивать их надо автоматом, нет там ничего - давай досвидания.

4. Возможно некий статический лист прокси источников типа фавориты... Возможно с макросом, типа "http://proxylist/com/proxies/{current-date}" который мона определять для каждого источника, чтобы всегда побирало сегодняшние, свежайшие.

Ну вот примерно навскидку что было бы здорово сделать. Это асче риальнэ? :)

Сущность доров раскрыта! (/ru/forum/comment/14853337)
_Snake_
На сайте с 06.12.2010
Offline
151
#475
tapakah2001:

В настройках прокси чекера, для чекинга прокси на валидность, есть такое:

Обращаться к ресурсу: http://www.google.com
В ответе должно быть: <title>Google|src="/sorry/image?id=|/sorry/IndexRedirect?|<h1>We're sorry...</h1>|your computer or network may be sending automated queries.|//support.google.com/websearch/answer/

И вот тут у меня когнитивный диссонанс. Судя по написанному, чтобы прокси был засчитан как рабочий, надо, чтобы гугль дал отлуп!!! То есть в ответе ДОЛЖНО быть "сорри идите в задницу", что довольно таки странно логически, нет?

| - это или.

tapakah2001
На сайте с 25.05.2002
Offline
140
#476
_Snake_:
| - это или.

Я знаю что означает палка. Вы не поняли вопрос. :)

_Snake_
На сайте с 06.12.2010
Offline
151
#477
tapakah2001:
Я знаю что означает палка. Вы не поняли вопрос. :)
tapakah2001:

И вот тут у меня когнитивный диссонанс. Судя по написанному, чтобы прокси был засчитан как рабочий, надо, чтобы гугль дал отлуп!!! То есть в ответе ДОЛЖНО быть "сорри идите в задницу", что довольно таки странно логически, нет?

Может быть там должно быть написано "в ответе НЕ должно быть:" и тогда все сходится - если гугль не выдает "сорри" а открывается успешно, то все в порядке? Потому что иначе это реально не имеет никакого смысла.

Я всё прекрасно понял, но кто тебе сказал, что прокси чекаются именно под гугл? Судя по строке они чекаются просто на работоспособность, то есть, что они вообще живые. А проверка ответа гугл, идёт для того, чтобы понят, что IP в чекере действительно, являются IP-прокси, а например не HTTP сервером, которые тоже могут дать тебе ответ 200 и даже html но совсем не тот, что ты ожидал.

Впрочем, если в конфиг вынесена строка с выражением для проверки, то что тебе мешает убрать лишние выражения для проверки и оставить только для того случая когда гугл работает?

tapakah2001:
<title>Google|src="/sorry/image?id=|/sorry/IndexRedirect?|<h1>We're sorry...</h1>|your computer or network may be sending automated queries.|//support.google.com/websearch/answer/

Только тут есть один нюанс, что гугл может пускать на морду с прокси и не выдавать капчу, но когда ты пошлёшь запрос то выведет.

И ещё, я вот что-то не понял, в чекере нет, чтоли проверки на анонимность? В хрумаке есть специальный файлик который надо закинуть на свой сервер он выводит содержимое HTTP_SERVER. Ну или можно в качестве сайта для проверки, воспользоваться например https://yandex.ru/internet/

tapakah2001
На сайте с 25.05.2002
Offline
140
#478
_Snake_:
Я всё прекрасно понял, но кто тебе сказал, что прокси чекаются именно под гугл? Судя по строке они чекаются просто на работоспособность, то есть, что они вообще живые. А проверка ответа гугл, идёт для того, чтобы понят, что IP в чекере действительно, являются IP-прокси, а например не HTTP сервером, которые тоже могут дать тебе ответ 200 и даже html но совсем не тот, что ты ожидал.

Ну так там в конфиге задается - какой сайт загрузить (гугль) и что искать в ответе чтобы убедиться что оно работает.

_Snake_:
Впрочем, если в конфиг вынесена строка с выражением для проверки, то что тебе мешает убрать лишние выражения для проверки и оставить только для того случая когда гугл работает?

Там логическая ошибка в фразеологии. В конфиге указаны ТОЛЬКО негативные ответы от гугля, означающие, что прокси не работает, но фраза построена таким образом ("в ответе должно быть") что думается что это, что должно быть, есть признак рабочести проски, хотя все как раз наоборот. Именно это я их хочу получить - подтверждение того, что я правильно понимаю, что там в чекере неверно сформулировано. :)

_Snake_:
И ещё, я вот что-то не понял, в чекере нет, чтоли проверки на анонимность? В хрумаке есть специальный файлик который надо закинуть на свой сервер он выводит содержимое HTTP_SERVER. Ну или можно в качестве сайта для проверки, воспользоваться например https://yandex.ru/internet/

Может где-то и есть но не видно на первый взгляд. Либо забыли сделать такое. По большому счету, для работы Контент Бокса, к которому эта штука приделывается, это неважно - он и так все парсит, без разделения на элите или нет. Но я бы конечно был бы только за то, чтобы прокси еще чекались на анонимность. :) Ну это уже хотелки так сказать чисто опциональные, потому что я использую этот проксичекер (вернее наловленные им прокси) для другого софта. :)

_Snake_
На сайте с 06.12.2010
Offline
151
#479
tapakah2001:

Там логическая ошибка в фразеологии. В конфиге указаны ТОЛЬКО негативные ответы от гугля, означающие, что прокси не работает, но фраза построена таким образом ("в ответе должно быть") что думается что это, что должно быть, есть признак рабочести проски, хотя все как раз наоборот. Именно это я их хочу получить - подтверждение того, что я правильно понимаю, что там в чекере неверно сформулировано. :)

Заканчивай бухать, празднование НГ уже пора заканчивать! Я же тебе выше написал. Если ты получаешь ответ от гугла(или другого сайта который ты указал) значит прокси УЖЕ рабочий, он пропускает через себя траф до нужного тебе сайта! Другое дело, что этот IP может быть забанен на самом гугле. Но это не значит, что прокси не рабочий вообще, на других сайтах он может быть не забанен. Так же выше, я тебе указал жирным, что надо оставить в строке конфига, чтобы оставались те прокси которые ещё пригодны для парсинга в гугле(но возможно с капчей).

tapakah2001
На сайте с 25.05.2002
Offline
140
#480

Хорошо, тогда нахрена там это стоит? "в ответе должно быть:" и далее отлупы от гугля)? Я все же думаю, что чекер в Пандоре не просто так, типа "прокси работает" проверяет, а конкретно применительно к гуглю. То есть забанен или нет ИП в самом Гугле. Собственно это логично, не? Нам ведь не нужен некий абстрактный сферический прокси в вакууме, а чтобы парсить было через него. :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий