Написал парсер сайта для создания sitemap.xml

humbert
На сайте с 16.03.2006
Offline
540
1202

Написал парсер сайта - сканирует сайт на внутренние ссылки, из которых затем генерируется карта сайта по протоколу Sitemap XML

http://humbert.ru/2008/07/09/sitemapxml-dlya-google-i-yandex/

humbert добавил 10.07.2008 в 08:55

кто-то пользуется? Есть минусы?

Парсинг прайс-листов, наполнение интернет-магазина товаром. (https://humbert.ru) Любая CMS (Битрикс, OpenCart, Prestashop и даже Woo Commerce )
orphelin
На сайте с 02.07.2006
Offline
261
#1

пытаюсь для себя написать чтото подобное для сужебных целей, так что ваш скрипт оказался очень в тему (нашел через яндекса), я пока не очень силен в пхп.

хотел задать вопрос, у вас там встречается рег. выражение "!<a\s(.*?)href=(\s*?)\"?'?([^\"'\s>]+)\"?'?(\s*?)[^>]*>!is" , не совсем понял для чего вторая подмаска (\s*?)

и второй вопрос, в данном случае будут ли какие то плюсы использавания CURL перед простым file_get_contents?

humbert
На сайте с 16.03.2006
Offline
540
#2

orphelin, я и сам не понимаю много. CURL дает больше возможности просто.

Вторая подмаска, на случай такой фразы <a href= humbert.ru >

Конечно. можно использовать потом trim(), но почему то так написал.

orphelin
На сайте с 02.07.2006
Offline
261
#3

вот такую ссылку

<a href="javascript:JS('menu1','image1');" title="Развернуть/Свернуть"> <img name=image1 src="/pic/plus.gif"><b>О фирме</b></a>

неправильно обрабатывает, захвытывает как урл "javascript:JS(" , пока не хватило фантазии как побороть =)

LA
На сайте с 03.06.2008
Offline
105
#4

orphelin, что-то такое:


if (preg_match('#javascript:#i', $url)) continue;

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий