Но зачем это делать вручную, когда это можно автоматизировать?
Разве не в этом состоит вся суть таких программ?
Не надо сравнивать с Xenu, она по сути ищет только битые ссылки.
Больше там нет ничего.
burunduk, вот для этого мы и проводим тест. Чтобы реально понять, что делать в первую очередь? Вот Вы говорите про пакеты прокси серверов. Но возникает вопрос: а насколько часто Вы этим пользуетесь? Насколько часто Вы используете поиск по фрагментам данных на страницах?
Конкретно Вы, наверное частенько делаете это. А большинство людей? Вот это уже интересный вопрос.
burunduk,
1. именно пакет проксей подключить 20-100шт и работать сразу через все
- такой возможности нет, но мы думали о ней. В принципе, реализовать будет не сложно. Будет дополнением от блокировки.
2. да, нужно найти все страницы в которых есть заданный фрагмент кода
- нет такой возможности. Добавить - очень просто. Беру на заметку.
3. зачем платить за урезанный функционал?
- ну ведь сейчас бета-тест. Слушаем пожелания, делаем, получаем снова отзывы о проделанной работе.
4. значит спарсить большой сайт будет практически невозможно - тупо не хватит терпения дождаться
- надо для начала попробовать. Может Вы и правы. Однако сколько тестов не проводили, узким местом являлась скорость интернета, но не парсинг.
Можно чуть-чуть подробнее? Не совсем понял, что значит обрабатываются?---------- Добавлено 14.06.2018 в 13:04 ----------SmileP, желательно еще пример идеальной обработки
По крайней мере в самом начале:
Для стран СНГ - 60$, что примерно 3700 рублей за подписку в год.
Для стран Запада - 100$ за подписку в год.
На данный момент можно сделать предзаказ на 2 года вперед за 100$.
Но я Вам настоятельно рекомендую для начала попользоваться программой какое-то время, чтобы убедиться, что то, что мы предлагаем, Вам действительно подходит.
Мы, в свою очередь постараемся сделать Все, чтобы она Вам подошла. =)
В целом, мы готовы выслушать Ваши предложения по улучшению.
Язык программирования - С++
Для GUI и для работы с сетью - фреймворк Qt.
Для тестирования - фреймворк google test
Для парсинга html - сначала использовали гугловскую библиотеку gumbo, но она оказалась слишком тормознутой, переехали на myhtml (http://lexborisov.github.io/benchmark-html-persers/)
Ну и для работы с Excel используем расширение для Qt - QtXlsxWriter (https://github.com/dbzhang800/QtXlsxWriter)
Также и не обошлось без WinAPI - это причина, по которой мы не можем сразу сделать сборки для Mac OS. Но позже будут и они.
burunduk, и на счет русского языка, да, Вы уже не первый, кто ткнул нас носом в это. Сделаем.
https://trello.com/c/NjOhwAnA/89-translate-program-to-russian-language
1. сколько потоков поддерживает парсер?
- сейчас количество потоков регулируется автоматически, а именно, берется количество ядер Вашего процессора и на каждое логическое ядро создается отдельный поток. Пока что, мы считаем это оптимальным, ибо увеличение потоков может привести к зависанию всей системы, если переборщить конечно.
2. возможно ли настроить время ожидания ответа?
- что Вы имеете ввиду? Если ограничить таймаут - будет доступно это. Сейчас есть только заглушка на странице настроек Settings => Limits Settings (см. скриншот). Все никак до этого руки не доходили.
3. поддерживаются ли пакеты прокси?
- есть возможность задать соединение через прокси на странице настроек Settings => Proxy Settings.
4. есть ли поиск по фрагментам кода?
- именно по кускам HTML кода? Нет, нету. Нужно ли это? Может достаточно будет только поиска по XPath?
5. какой объём занимает в оперативке сайт с 1000к+ документами?
- честно говоря, не проверяли.
iskrakovrov, нет, Вы ошиблись.
Мы никогда не собирали деньги на разработку.
Все из своего кармана.---------- Добавлено 14.06.2018 в 09:31 ----------iskrakovrov, по поводу ошибки установки: да, известная на сей день проблема.
В данном случае можно просто нажать кнопку пропустить. Ошибка вызвана тем, что при установке программы, надо также установить и соответствующие редистрибутивы, которые у Вас уже установлены. Вот и вываливается эта ошибка.
Пропуск в данном случае ни на что не влияет. Работаем сейчас и над этим.