Весь форум парсит ночью xDDD
Заметил багу: когда парсил, нажал на "стоп мотор", а потом решил возобновить парсинг - в списке появились пустые строчки и, по-моему, вообще парсинг не продолжился, хотя должен был идти с места, где я запаузил
bell387, потому что сейчас в каждом поисковике есть "Быть может, вы искали..."
Вордстат посмотрите
Не-не =) Ты меня не понял. Парсятся же разные кеи, поэтому получается, что
кей1_0 - 1000
кей1_1 - 900
кей1_2 - 800
кей1_3 - 700
кей2_0 - 1500
кей2_1 - 1200
кей3_0 - 2000
понял мыслю? =)
seotouareg, а в чём дело? Я уже юзаю xD
Что бы хотелось увидеть:
- убрать горизонтальную строку прокрутки у кеев
- сортировку по столбцу "количество"
- при сохранении в выборе типа файла "с количеством" и "без количества запросов"
- уменьшить прогу в ширину =)
- при сохранении убирать везде "+"
- сделать расширенное сохранение: чтоб можно было указать в каком диапазоне количества запросов сохранять кеи
- перед парсингом убить повторяющиеся кеи
- отображать сколько введено кеев (чтоб прогнозировать удобнее было)
Вопросы:
- когда учитываются стоп слова? При сохранении или при парсинге? Хотелось бы, чтобы при сохранении, потому что я отлавливаю большинство какашек именно после парсинга.
- юзается anti-captcha.com? Или какая-то другая система? Лучше в проге указать домен, а не просто название
А так - респект! Вещь нужная, особенно, когда лень переделывать свой парсер xD
Так же интересны данные партнёрки
ужас... Всё равно, что сказать: хочу секса, но девушек никогда не видел.
Если хотите научиться программировать, то вам явно не с доргена нужно начинать.
Конечно, если вы такой умный и упорный, то вы напишите такой дорген... через полгода-год из-за неимения практики в том ЯП, который выберите.
Удачи вам, товарищ!
1. Регулярки для поиска прокси:
"#(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}|[\w\-]{2,20}\.\w{2,4})\:(\d{2,6})#i", "#<td[^>]*>\s*(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}|[\w\-]{2,20}\.\w{2,4})\s*</td>\s*<td[^>]*>\s*(\d{2,6})\s*</td>#si", "#\<\/td\>\<td\snowrap\>([\w.-]+?)\<\/td\>\<td\>(\d+)\<\/td\>\<td\>#si", "#<td>([\w.-]+?)<\/td><td>(\d+)<\/td><td>#si", "#\s<td>(\d+\.\d+\.\d+\.\d+)<\/td>\D+\s<td>(\d+)<\/td>#si", "#bgcolor=\#ffffff>([\w.-]+?)<\/td><td\swidth=\"25%\"\snowrap\sbgcolor=\#ffffff>(\d+)<\/td>#si", "#<li><a\shref=\"\/cgi-bin\/fp.pl.*?>(.+?)<\/a>#si", "#\sheight=17>([\w.-]+\.\w+)<\/td>\D+\sheight=17>(\d+)<\/td>#si", "#\>(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\<\/div\>\<\/td\>\s*<td\>\d{2,6}\<\/td\>#si", "#\>(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}):\s*(\d{2,6})\<\/td\>#si"
2. Для того, чтоб скрипт не вылетал на 500 ошибке и чтоб не вис нужно добавить перед концом цикла (перед фигурной скобкой) у обеих файлов:
@ob_flush(); @flush();
3. В проверке прокси не учтено следующее:
- CURLOPT_PROXYPORT
- CURLOPT_PROXYTYPE (значения, которые может принимать: CURLPROXY_SOCKS4, CURLPROXY_SOCKS5, CURLPROXY_HTTP)
- CURLOPT_PROXYUSERPWD (пусто должно быть)
Если всё это сделайте, то будет норм скрипт, а так - даже не похоже на "пять минут на колене" =)
Ну, хз. Если тебе надо пару дней только втыкать в чужой код, то да - долго придётся. Не нужно переубеждать меня в том, что я хорошо знаю и уже писал почти подобное.
А ещё лучше помнить русский язык и после школы. Он не для того изучается, чтоб забыть его после школы.