AndrAscii

Рейтинг
15
Регистрация
22.05.2018
Интересы
Разработка IT продуктов
Разработчик С++ команды RiveSolutions
burunduk:
мета + коды ответов, всё остальное делает эксель

Но зачем это делать вручную, когда это можно автоматизировать?

Разве не в этом состоит вся суть таких программ?

burunduk:
а для простых задач вполне достаточно бесплатной Xenu

Не надо сравнивать с Xenu, она по сути ищет только битые ссылки.

Больше там нет ничего.

burunduk, вот для этого мы и проводим тест. Чтобы реально понять, что делать в первую очередь? Вот Вы говорите про пакеты прокси серверов. Но возникает вопрос: а насколько часто Вы этим пользуетесь? Насколько часто Вы используете поиск по фрагментам данных на страницах?

Конкретно Вы, наверное частенько делаете это. А большинство людей? Вот это уже интересный вопрос.

burunduk,

1. именно пакет проксей подключить 20-100шт и работать сразу через все

- такой возможности нет, но мы думали о ней. В принципе, реализовать будет не сложно. Будет дополнением от блокировки.

2. да, нужно найти все страницы в которых есть заданный фрагмент кода

- нет такой возможности. Добавить - очень просто. Беру на заметку.

3. зачем платить за урезанный функционал?

- ну ведь сейчас бета-тест. Слушаем пожелания, делаем, получаем снова отзывы о проделанной работе.

4. значит спарсить большой сайт будет практически невозможно - тупо не хватит терпения дождаться

- надо для начала попробовать. Может Вы и правы. Однако сколько тестов не проводили, узким местом являлась скорость интернета, но не парсинг.

SmileP:
Цели редиректов обрабатываются?

Можно чуть-чуть подробнее? Не совсем понял, что значит обрабатываются?

---------- Добавлено 14.06.2018 в 13:04 ----------

SmileP, желательно еще пример идеальной обработки

vold57:
AndrAscii, сколько будет стоить программа?

По крайней мере в самом начале:

Для стран СНГ - 60$, что примерно 3700 рублей за подписку в год.

Для стран Запада - 100$ за подписку в год.

На данный момент можно сделать предзаказ на 2 года вперед за 100$.

Но я Вам настоятельно рекомендую для начала попользоваться программой какое-то время, чтобы убедиться, что то, что мы предлагаем, Вам действительно подходит.

Мы, в свою очередь постараемся сделать Все, чтобы она Вам подошла. =)

В целом, мы готовы выслушать Ваши предложения по улучшению.

sslab:
Оффтоп, но интересно стало. А на чем ведете разработку? Какой стек технологий используете?

Язык программирования - С++

Для GUI и для работы с сетью - фреймворк Qt.

Для тестирования - фреймворк google test

Для парсинга html - сначала использовали гугловскую библиотеку gumbo, но она оказалась слишком тормознутой, переехали на myhtml (http://lexborisov.github.io/benchmark-html-persers/)

Ну и для работы с Excel используем расширение для Qt - QtXlsxWriter (https://github.com/dbzhang800/QtXlsxWriter)

Также и не обошлось без WinAPI - это причина, по которой мы не можем сразу сделать сборки для Mac OS. Но позже будут и они.

burunduk, и на счет русского языка, да, Вы уже не первый, кто ткнул нас носом в это. Сделаем.

https://trello.com/c/NjOhwAnA/89-translate-program-to-russian-language

burunduk,

1. сколько потоков поддерживает парсер?

- сейчас количество потоков регулируется автоматически, а именно, берется количество ядер Вашего процессора и на каждое логическое ядро создается отдельный поток. Пока что, мы считаем это оптимальным, ибо увеличение потоков может привести к зависанию всей системы, если переборщить конечно.

2. возможно ли настроить время ожидания ответа?

- что Вы имеете ввиду? Если ограничить таймаут - будет доступно это. Сейчас есть только заглушка на странице настроек Settings => Limits Settings (см. скриншот). Все никак до этого руки не доходили.

3. поддерживаются ли пакеты прокси?

- есть возможность задать соединение через прокси на странице настроек Settings => Proxy Settings.

4. есть ли поиск по фрагментам кода?

- именно по кускам HTML кода? Нет, нету. Нужно ли это? Может достаточно будет только поиска по XPath?

5. какой объём занимает в оперативке сайт с 1000к+ документами?

- честно говоря, не проверяли.

png unknown1.png
png unknown2.png

iskrakovrov, нет, Вы ошиблись.

Мы никогда не собирали деньги на разработку.

Все из своего кармана.

---------- Добавлено 14.06.2018 в 09:31 ----------

iskrakovrov, по поводу ошибки установки: да, известная на сей день проблема.

В данном случае можно просто нажать кнопку пропустить. Ошибка вызвана тем, что при установке программы, надо также установить и соответствующие редистрибутивы, которые у Вас уже установлены. Вот и вываливается эта ошибка.

Пропуск в данном случае ни на что не влияет. Работаем сейчас и над этим.

Всего: 65