насколько необходим подобный скрипт?

12 3
[Удален]
2550

знакомый прогер написал:


Скрипт быстрого многопоточного парсинга сайтов(краулер).

Скрипт обходит сайты и сохраняет содержимое страниц в папке. Работает в многопоточном режиме до нескольких тысяч потоков на обычном хостинге. В базе данных всего одна таблица с необходимым и достаточным количеством полей. Работает очень быстро, низкий расход памяти на поток.

Написан на PHP + MYSQL использует CURL и DOMDocument

Может быть использован как движок для SEO системы по сбору и анализу инорфмации.

В настройках можно задать, количество потоков, забить сайты которые надо отпарсить и максимальный уровень парсинга. Дальше которого не стоит соваться так как некоторые сайты могут иметь циклические ссылки.

на сколько данный продукт может быть востребован и необходим?

интересует необходимость выпуска подобного продукта на рынок :)

P.S. если будет принято решение выпускать на рынок, продукт будет продавать сам разработчик :)

нужен скрипт?

возьму, если только на халяву
43% (10)
куплю за разумные деньги
9% (2)
уже есть
26% (6)
кто здесь?
35% (8)
Всего проголосовало: 23
B
На сайте с 02.05.2007
Offline
240
#1
burunduk:

до нескольких тысяч потоков на обычном хостинге.
В базе данных всего одна таблица

так как некоторые сайты могут иметь циклические ссылки

немного сыроват

SeVlad
На сайте с 03.11.2008
Offline
1609
#2
burunduk:
на сколько данный продукт может быть востребован и необходим?

Да они как бэ есть, но альтернативы всегда хорошо. Вопрос возможностей и адекватности цен. Как бэ для сравнения - десктопный контентдонлоадер.

burunduk, сабжевый скрипт классно гармонирует с подписью ;)

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.
[Удален]
#3
balueff:
немного сыроват

на тесте работал хорошо, да простит меня викимаркт, когда у меня спросили какой есть большой сайт кроме вики, первое что пришло на ум.

только через полчаса сообразил - для чего спрашивали :)

но викимаркт выдержал больше тысячи потоков в течении получаса, правда скорость отдачи страниц упала :)

SeVlad:
burunduk, сабжевый скрипт классно гармонирует с подписью

ну так изначально скрипт писался именно для анализа :)

mr_krabs
На сайте с 31.03.2010
Offline
77
#4

а порядок цифр в рублях какой?

Профессиональные услуги веб-аналитики (http://forup.ru) Форум о веб-аналитике (http://allmetrics.ru)
Diversant
На сайте с 29.03.2006
Offline
329
#5

Сохраняет с мусором ?

[Удален]
#6

mr_krabs, о цене вопрос в данный момент не стоит, интересует только насколько это может быть востребовано :)

---------- Добавлено 11.04.2012 в 00:53 ----------

Diversant, только html отдаваемый сервером

SeVlad
На сайте с 03.11.2008
Offline
1609
#7
burunduk:
только html отдаваемый сервером

Т.е. даже не нормальный парсер 😮 ? (как виделось в начале)

Если так, то .. разве что бесплатно выпустить. По сути ж от многопоточного wget (или офлайнбраузеров для винды) ничем не отличается.

[Удален]
#8

SeVlad, что значит нормальный парсер?

вообще-то? изначально был необходим именно весь html :)

IT_DED
На сайте с 07.03.2007
Offline
236
#9
burunduk:
Скрипт обходит сайты и сохраняет содержимое страниц в папке.

Леш... страницу полностью или часть регекспами можно задать?

Ну и список урлов ему как задавать требуется?

Расписал бы...

вообще стукни в скайп - пораспрашаю тебя))

⭐ Рекомендации Дорвейщикам тут - https://in.gl/itded
SeVlad
На сайте с 03.11.2008
Offline
1609
#10
burunduk:
что значит нормальный парсер?

ну вот например:

Думка:
часть регекспами можно задать?

+ формирование спашенного (определение нужных включений, их порядка и тд)

Как образец - я выше упомянул как бэ не плохой парсер (хотя лично мне он не очень..).

Функционал сабжа так и не описан же.

burunduk:
изначально был необходим именно весь html

ну тож изначально.. а вообще зачем меню, баннеры, футеры и пр мутотень? ;)

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий