lord_alfred

Рейтинг
105
Регистрация
03.06.2008
seotouareg:
щас вордстат сервис в дауне =(

Весь форум парсит ночью xDDD

Заметил багу: когда парсил, нажал на "стоп мотор", а потом решил возобновить парсинг - в списке появились пустые строчки и, по-моему, вообще парсинг не продолжился, хотя должен был идти с места, где я запаузил

bell387, потому что сейчас в каждом поисковике есть "Быть может, вы искали..."

Вордстат посмотрите

seotouareg:
на счет сортировки, то ведь в вордстате она и так идет. с ВЧ на НЧ. Если нужно обратное, то реализую позже, когда о5 лень поборю)

Не-не =) Ты меня не понял. Парсятся же разные кеи, поэтому получается, что

кей1_0 - 1000

кей1_1 - 900

кей1_2 - 800

кей1_3 - 700

кей2_0 - 1500

кей2_1 - 1200

кей3_0 - 2000

понял мыслю? =)

seotouareg, а в чём дело? Я уже юзаю xD

Что бы хотелось увидеть:

- убрать горизонтальную строку прокрутки у кеев

- сортировку по столбцу "количество"

- при сохранении в выборе типа файла "с количеством" и "без количества запросов"

- уменьшить прогу в ширину =)

- при сохранении убирать везде "+"

- сделать расширенное сохранение: чтоб можно было указать в каком диапазоне количества запросов сохранять кеи

- перед парсингом убить повторяющиеся кеи

- отображать сколько введено кеев (чтоб прогнозировать удобнее было)

Вопросы:

- когда учитываются стоп слова? При сохранении или при парсинге? Хотелось бы, чтобы при сохранении, потому что я отлавливаю большинство какашек именно после парсинга.

- юзается anti-captcha.com? Или какая-то другая система? Лучше в проге указать домен, а не просто название

А так - респект! Вещь нужная, особенно, когда лень переделывать свой парсер xD

Так же интересны данные партнёрки

voatex:
языками програмирования не владею, но готов изучить любой - я умный и упорный))

ужас... Всё равно, что сказать: хочу секса, но девушек никогда не видел.

Если хотите научиться программировать, то вам явно не с доргена нужно начинать.

Конечно, если вы такой умный и упорный, то вы напишите такой дорген... через полгода-год из-за неимения практики в том ЯП, который выберите.

Удачи вам, товарищ!

1. Регулярки для поиска прокси:


"#(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}|[\w\-]{2,20}\.\w{2,4})\:(\d{2,6})#i",
"#<td[^>]*>\s*(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}|[\w\-]{2,20}\.\w{2,4})\s*</td>\s*<td[^>]*>\s*(\d{2,6})\s*</td>#si",
"#\<\/td\>\<td\snowrap\>([\w.-]+?)\<\/td\>\<td\>(\d+)\<\/td\>\<td\>#si",
"#<td>([\w.-]+?)<\/td><td>(\d+)<\/td><td>#si",
"#\s<td>(\d+\.\d+\.\d+\.\d+)<\/td>\D+\s<td>(\d+)<\/td>#si",
"#bgcolor=\#ffffff>([\w.-]+?)<\/td><td\swidth=\"25%\"\snowrap\sbgcolor=\#ffffff>(\d+)<\/td>#si",
"#<li><a\shref=\"\/cgi-bin\/fp.pl.*?>(.+?)<\/a>#si",
"#\sheight=17>([\w.-]+\.\w+)<\/td>\D+\sheight=17>(\d+)<\/td>#si",
"#\>(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\<\/div\>\<\/td\>\s*<td\>\d{2,6}\<\/td\>#si",
"#\>(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}):\s*(\d{2,6})\<\/td\>#si"

2. Для того, чтоб скрипт не вылетал на 500 ошибке и чтоб не вис нужно добавить перед концом цикла (перед фигурной скобкой) у обеих файлов:


@ob_flush(); @flush();

3. В проверке прокси не учтено следующее:

- CURLOPT_PROXYPORT

- CURLOPT_PROXYTYPE (значения, которые может принимать: CURLPROXY_SOCKS4, CURLPROXY_SOCKS5, CURLPROXY_HTTP)

- CURLOPT_PROXYUSERPWD (пусто должно быть)

Если всё это сделайте, то будет норм скрипт, а так - даже не похоже на "пять минут на колене" =)

babun:
lord_alfred, калоген можно и за 5 минут. Но, реального и тем чем можно будет гордиться - врятли.

Ну, хз. Если тебе надо пару дней только втыкать в чужой код, то да - долго придётся. Не нужно переубеждать меня в том, что я хорошо знаю и уже писал почти подобное.

Витяня:
Хорошо быть школьнегом, Русский помнить на зубок, скрипты для морфологических преобразований писать за 5 минут.

А ещё лучше помнить русский язык и после школы. Он не для того изучается, чтоб забыть его после школы.

Всего: 544