Пишу скрипты на PHP, python, ruby.

V
На сайте с 14.08.2010
Offline
2
2132

Пишу скрипты с веб или CLI (командная строка) интерфейсом: парсилки, грабилки, регалки.

Использую PHP, python, ruby.

Есть опыт работы с многопоточностью, прокси, aнтикапча-сервисами.

Контакты:

email: verdegal@ya.ru

jabber: verdegal@ya.ru

icq: 613186259

skype: verde.gal

Пишу скрипты на PHP, python, ruby (/ru/forum/531834)
D
На сайте с 09.07.2009
Offline
79
#1

Раз есть опыт - быть может покажите что-то, сделанное вашими руками?

V
На сайте с 14.08.2010
Offline
2
#2

Почему-то моё сообщение не отображается, то ли модерация, то ли ещё что, попробую ещё раз.

Вот пример моей работы - парсер wordstat.yandex.ru


#!/usr/bin/env python
# -*- coding: utf-8 -*-
import os
from grab import Grab
from urllib import quote_plus
import time

def parse(query):
g = Grab()

# Retrieve fuid01 cookie
g.setup(url='http://kiks.yandex.ru/su/', log_file='log.html')
g.request()

page = 1
max_page = None
results = open('results.txt', 'w')

while True:
if max_page and page > max_page:
break
# Build query url
print 'Parsing page #%d' % page
query_safe = quote_plus(query.encode('utf-8'))
url = 'http://wordstat.yandex.ru/?cmd=words&page=%d&text=%s&geo=&text_geo=' % (page, query_safe)
g.setup(url=url)
g.request()

# If captcha image exists refresh fuid01 cookie
while 'http://captcha.yandex.net' in g.response_body:
print 'Captcha detected'
# Refresh fuid01 cookie
g = Grab()
g.setup(url='http://kiks.yandex.ru/su/', log_file='log.html')
g.request()
print g.cookies

# Query yandex again
g.setup(url=url)
g.request()

# Parse results table
for tr in g.etree.xpath('//table[@class="campaign"]//tr[@class="tlist"]'):
items = [x.strip().encode('utf-8') for x in tr.xpath('td//text()')]
results.write('%s\t%s\n' % (items[1], items[3]))

#time.sleep(1)

# Check the link on next page
if 'cmd=words&page=%d' % (page + 1) in g.response_body:
page += 1
else:
break


query = u'скачать сумерки'
parse(query)
print 'Done'

[Удален]
#3

ТС безупречно справился с задачей и ответил на массу моих вопросов. Сейчас пишет еще один скрипт. ТС мастер своего дела! :)

PM
На сайте с 30.08.2010
Offline
48
#4

написал не туда, сорр)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий