- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
знакомый прогер написал:
Скрипт быстрого многопоточного парсинга сайтов(краулер).
Скрипт обходит сайты и сохраняет содержимое страниц в папке. Работает в многопоточном режиме до нескольких тысяч потоков на обычном хостинге. В базе данных всего одна таблица с необходимым и достаточным количеством полей. Работает очень быстро, низкий расход памяти на поток.
Написан на PHP + MYSQL использует CURL и DOMDocument
Может быть использован как движок для SEO системы по сбору и анализу инорфмации.
В настройках можно задать, количество потоков, забить сайты которые надо отпарсить и максимальный уровень парсинга. Дальше которого не стоит соваться так как некоторые сайты могут иметь циклические ссылки.
на сколько данный продукт может быть востребован и необходим?
интересует необходимость выпуска подобного продукта на рынок :)
P.S. если будет принято решение выпускать на рынок, продукт будет продавать сам разработчик :)
до нескольких тысяч потоков на обычном хостинге.
В базе данных всего одна таблица
так как некоторые сайты могут иметь циклические ссылки
немного сыроват
на сколько данный продукт может быть востребован и необходим?
Да они как бэ есть, но альтернативы всегда хорошо. Вопрос возможностей и адекватности цен. Как бэ для сравнения - десктопный контентдонлоадер.
burunduk, сабжевый скрипт классно гармонирует с подписью ;)
немного сыроват
на тесте работал хорошо, да простит меня викимаркт, когда у меня спросили какой есть большой сайт кроме вики, первое что пришло на ум.
только через полчаса сообразил - для чего спрашивали :)
но викимаркт выдержал больше тысячи потоков в течении получаса, правда скорость отдачи страниц упала :)
burunduk, сабжевый скрипт классно гармонирует с подписью
ну так изначально скрипт писался именно для анализа :)
а порядок цифр в рублях какой?
Сохраняет с мусором ?
mr_krabs, о цене вопрос в данный момент не стоит, интересует только насколько это может быть востребовано :)
---------- Добавлено 11.04.2012 в 00:53 ----------
Diversant, только html отдаваемый сервером
только html отдаваемый сервером
Т.е. даже не нормальный парсер 😮 ? (как виделось в начале)
Если так, то .. разве что бесплатно выпустить. По сути ж от многопоточного wget (или офлайнбраузеров для винды) ничем не отличается.
SeVlad, что значит нормальный парсер?
вообще-то? изначально был необходим именно весь html :)
Скрипт обходит сайты и сохраняет содержимое страниц в папке.
Леш... страницу полностью или часть регекспами можно задать?
Ну и список урлов ему как задавать требуется?
Расписал бы...
вообще стукни в скайп - пораспрашаю тебя))
что значит нормальный парсер?
ну вот например:
часть регекспами можно задать?
+ формирование спашенного (определение нужных включений, их порядка и тд)
Как образец - я выше упомянул как бэ не плохой парсер (хотя лично мне он не очень..).
Функционал сабжа так и не описан же.
изначально был необходим именно весь html
ну тож изначально.. а вообще зачем меню, баннеры, футеры и пр мутотень? ;)