PHP скрипт определения CY, PR, DMOZ, WA, Клей CY, Клей PR сайтов

12
H01mes
На сайте с 11.05.2009
Offline
29
4330

искал для себя простую серверную чекалку чтоб все важно в одном месте не перекидывая списки доменов с одной страницы в другую да и надоело пользоваться различными сервисами где тоже что либо не устраивает, а уж при моет GPRS соединении про программные средства вообще промолчу поэтому пользуюсь сугубо скриптами, это было то что побудило меня сделать чекер.

что из себя представляет этот чекер и умеет определять:

ТИЦ, PR, наличие в каталоге DMOZ, наличие в веб архиве (web.archive.org), производит проверку на склейку тица, проверяет на склейку ПР.

особенности:

наличие в каталоге DMOZ выводится не сухим ДА/НЕТ а с количеством результатов поиска домена в каталоге например для searchengines.ru это "Да, 5" это значит всего упоминаний домена в каталоге 5 ;)

наличие в веб архиве таже ситуация выводим не сухое да/нет а количество снимков домена к примеру searchengines.ru "Да, 973" т.е. 973 снимка

реализация склейки немного криво я сделал но тем не менее работает так что любители полазить в коде предложите свой вариант буду рад.

также про бан от служб где беру данные чтоб небыло неприятностей в файле worker.php установил паузу на выполнение скрипта в секунду, АЙПИ еще не банели, но хотелось бы иметь очередь задания при выполнения, но как это реализовать недопёр :(

Для любителей денвера и ему подобных на локале работает, да и еще если ставите на сервер на котором есть .htaccess с прописанной директивой AddDefaultCharset удалите тот что в архиве или свой который имеете на сервере в общем думайте у меня на сервере почемуто вызывает 500 ошибку если в корне сайта лежит .htaccess с директивой AddDefaultCharset и в папке скрипта.

Но если кодировка сервера отлична от кодировки utf-8 то могут быть проблемы, в остальном проблем не замечал.

[ATTACH]120665[/ATTACH]

zip checker_1.0.zip
H01mes
На сайте с 11.05.2009
Offline
29
#1

сегодня пришлось много сайтов смотреть в веб архиве и его тормоза ужасно надоели нашел решение перекочевать на старую классическую версию она мне и по душе ближе, ссылку в чекере также поправил на классику.

Кому хочется смотреть на красоты новых тормозов архива просто переименуйте wa_old.php в wa.php

[ATTACH]120664[/ATTACH]

zip checker_1.1.zip
DV
На сайте с 01.05.2010
Offline
644
#2
H01mes:
хотелось бы иметь очередь задания при выполнения

Можно складывать в таблицу/файл данные и временную метку, вызывать отдельный скрипт по крону.

У кого свой сервер, проблем нет, вызов php в cli, либо wget. Остальным, наверное, вшить в основной исполняемый файл проверку разницы по времени и выполнять задание в случае превышения порога.

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )
H01mes
На сайте с 11.05.2009
Offline
29
#3

я для себя вижу это немного проще: дали скрипту список, он его разбил на строки обработал одну строку передохнул начал обрабатывать следующюю после задержки а эту очередь собиралбы в буфер или еще каким либо способом чтоб не заглох вообще в случаи если ему разом дать 10к доменов, но вот как это сделать я не знаю

DV
На сайте с 01.05.2010
Offline
644
#4

По поводу не заглох ли — пусть скрипт кладёт pid. Каждый заход клиента инициирует проверку, а в случае отсутствия пида — выполнение.

H01mes
На сайте с 11.05.2009
Offline
29
#5

был бы у меня подобный рабочий пример с удовольствием покапал бы.

логика

1. даем скрипту 1к строк

2. скрипт каждую из этих строк выполняет с заданной задержкой

3. ставит в очередь

4. параллельные сессии также обрабатывает в общей очереди но не после выполнения первого обратившегося к скрипту т.е. если к скрипту обратились 10 человек то выполнение задания скриптом должно выглядеть так

- 1ч - первая строка

- 2ч - первая строка

- 3ч - первая строка

.....

- 10ч - первая строка

- 1ч - вторая

- 2ч - вторая

....

надеюсь логика понятна

вот только такая логика оправданна или нет мне не ясно, так как все запросы тут будут выполнятся последовательно а значит и долго

если предположить что на обработку одного запроса уйдет 1 секунда а всего нам нужно выполнить 100 то вытекает почти 2 минуты другими словами 100 пользователь обратившийся к скрипту получит результат обработки первого домена из списка всего навсего через 2-ве минуты

ахтунг какойто...

это всего лишь размышления

---------- Добавлено 06.03.2013 в 16:37 ----------

интересно как была реализована логика работы у того же pr-cy.ru в его панели сайтов и как это сделано сейчас.

раньше подобными вопросами не задавался.

DV
На сайте с 01.05.2010
Offline
644
#6

Многопоточный cUrl+прокси лист рандомно.

H01mes
На сайте с 11.05.2009
Offline
29
#7
DenisVS:
Многопоточный cUrl+прокси лист рандомно.

а подробнее можно как вы себе это видете, т.е. изложите логику работы от начала до конца если не затруднит.

я тоже склоняюсь в этом случаи к много поточности + прокси или дополнительным IP но к сожалению не так расширено как вы но буду благодарен.

кстати буквально вчера нашел вот что о много поточности

Почти настоящая многопоточность средствами php 5

DV
На сайте с 01.05.2010
Offline
644
#8

Берётся массив прокси, создаётся функция выбора случайного. Запускается в многопоточный cUrl.

Вот хорошее объяснение, я им руководствовался:

http://job-interview.ru/articles/post/67

Свой пример сейчас привести не могу, сунулся разбираться, а там функция на 2 экрана, заточена под свои цели, долго буду вспоминать…

H01mes
На сайте с 11.05.2009
Offline
29
#9

хорошую вы ссылку скинули спасибо, сухо увлекате5льно по делу и листингом готовым ...

A
На сайте с 19.07.2010
Offline
130
#10

маленький хинт: у вас в начале всех файлов стоит заголовок юникода(первые три байта) - его не должно быть.

Если пользуетесь notepad++, то в менюхе "Кодировки" выберете "Кодировать в UTF-8 (без BOM)" и пересохраните все файлы.

этот заголовок в .htaccess и дает 500-ю ошибку.

.............
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий