Петр Елагин

Петр Елагин
Рейтинг
197
Регистрация
21.03.2007
Должность
Голова
mansursp:
угу, особенно после утечки данных с easyfinance.

Я понимаю Ваши опасения, к безопасности я подхожу очень серьезно, изучение линукса начал с 1999 года, поэтому и ответственность понимаю.

Сервис был написал в первую очередь для себя, если Будет интерес к нему ( сейчас активно с ним работают уже более 15 человек), то будет и дальнейшее развитие и усложнение( https, cnfr и пр. )

Буду благодарен за любые вопросы.

Спасибо.

п.с.

Декскоп не интересен, так как это утопия. через два года на 2х-звенке будут работать только динозавры, которые хоть и будут утверждать, что это нормально, но на самом деле у них будет страх перейти на более современные средства.

)

strefapl:
Декстоп - только декстопными должны быть такие проги. А платными - обновления, фичи и пр.

Хорошо, что на просторах интернета я сам могу решать какая будет программа )

---------- Добавлено 18.03.2012 в 01:39 ----------

vzryvnoj:
Ну да, идея хорошая.
Но не на вашем сервере конечно.
Сделайте десктоп или веб версию для установки на свой сервер.

Мое дело, сапе, фриланс, и еще миллион программ в вебе ) почему вы решили, что мне будет интересна ниша десктопа?

netgod:
То есть мы должны полагаться на вашу порядочность, размещая наши сугубо личные данные у вас на сервере?

есть такое понятие, как репутация, мне она дороже.

Приветствую. Если у Вас есть вопросы, я с удовольствием отвечу на них.

Первым 5 пользователям с репутацией от 50 000 будет сделан разовый парсинг для оценки скорости и качества( количество запросов = количество репутации( до 100 000 запросов ) )

Принцип взаимодействия:

Раз в три минуты робот проверяет наличие новых файлов заданий по указанному ФТП.

Если есть новый файл заданий, робот добавляет к имени файла расширение .lock ( т.е. переименовывает файл) и скачивает его, после завершения обработки к имени файла добавляется расширение .finish и файл загружается на сервер в папку foothold-result ( имя директории может быть любым)

ФТП:

  • Имя пользователя
  • Пароль
  • Хост
  • Порт
  • Корневая директория ( не обязательно )
  • необходимо, чтоб пользователь имел право удалять, переименовывать и создавать директории

Требования к файлам заданий:

  • в каждом файле должно быть до 1000 строк.
  • Название не принципиально, рекомендуется назвать файлы в формате Дата_Тип_Идентификатор Файла ( например: 09.36.01-09.03.2012-mail_216.txt )
  • Кодировка файла строго UTF8
  • Разделитель внутри задания '|'
  • параметр Идентификатор, уникальное число в рамках файла, т.е. повторяться внутри 1 файла он не может.
  • Параметр Домен обозначает какой домен использовать при запросе
  • Параметр Запрос должен быть как есть ( если будут например кавычки, то и в запросе они будут)

Формат входящих файлов :

  • Яндекс: Идентификатор задания, Запрос, Домен( yandex.ru, yandex.ua ), регион ( по умолчанию 213), страниц ( не обязателен )
    • Пример:677|бутилированная вода|yandex.ru|213|
  • Google: Идентификатор задания, Запрос, Домен( google.ru, google.ua ), регион ( по умолчанию Москва), страниц ( не обязателен )
    • Пример: 677|бутилированная вода|google.ru|Москва
  • Mail: Идентификатор задания, Запрос, Домен ( mail.ru ), регион ( по умолчанию Москва), страниц ( не обязателен )
    • Пример: 43645|кулер для воды спб|mail.ru|Санкт-Петербург

Формат результата:

  • В независимости от типа запроса файл результата представляет собой текст в формате JSON, архивированный библиотекой gzip
  • Для получения результатов Вам необходимо сделать:
  • Разархивировать библиотекой gzip
  • Каждая строчка этого файла состоит( разделитель ‘|’):
    • Идентификатор
    • Результат в формате JSON
    • Ошибка ( если есть)
  • Результат, это хеш-массив значений, количество значений отличается от типа запроса, основные:
    • (текст) url - Урл запроса к поисковой системе
    • (логическое) cache - Запрос из кеша или нет
    • (хеш-массив) serp(список результатов)
      • (текст) snippet - Сниппет
      • (текст) domain - Домен
      • (число) index - Позиция ( начинается с 1 )
      • (текст) url - Урл в выдаче

Примечание:

  • Следите за местом на своем ФТП ( файл результатов 1000 заданий занимает около 75 мегобайт распакованный, запакованный около 5 мегобайт)
  • Файлы строго в кодировке UTF-8
  • Каждый файл на один тип заданий
  • Если в файле будет больше 1000 заданий, то будет обработана первая 1000 заданий, остальные игнорируются
  • При необходимости есть возможность уведомление о количестве заданий по смс или электронной почтой
  • На услуги составляется договор, в котором указано дневное количество заданий и тип.
  • Скорость Обработки 1000 заданий ( представлены средние параметры, скорость может быть оговорена отдельно)
    • Яндекс XML- 100 сек
    • Яндекс - 200 сек
    • Google - 180 сек
    • Mail - 960 сек

Подробная стоимость запросов во вложении

png price.png

подождите. бывает же. это нормально для сервисов, которые завязаны на сетевых протоколах) .

пишите свой. если планируете развитие.!

попробуйте через сервис прогнать сайтпампер или аддсеарч

LEOnidUKG:
Индексы есть и на id и на cat
Тип базы: myisam

Запросы в основном:

SELECT * FROM `cms_freepages` WHERE cat=2 ORDER id DESC LIMIT 37710, 30

Чем дальше "в лес" т.е. листаем глубже, сервер просто умирает на таком запросе и выполняется по 15 секунд. А как боты набегут и давать клацать по 10 таких запросов.

Решил пока, не давать им бегать дальше 10 страницы, НО... не ну реально что-ли нету никаких вариантов по решению такой задачи?!

Много чего конечно читал, но варианты:
1. Как сделал, ограничить выборку
2. Всё загнать в память (увы, у меня нет столько чтобы держать БД всю)
3. Жестаки новые SSD, чтобы всё летало (увы, нету на серваке)

explain plan SELECT * FROM `cms_freepages` WHERE cat=2 ORDER id DESC LIMIT 37710, 30 в студию

Всего: 1582