Гадкие ссылки вида ../path/page.html

4F
На сайте с 25.04.2005
Offline
20
4LF
505

мой робот работает так...

указали ему www.site.ru

он сначала делает запрос "/" = корень сайта

потом цикл по всем найденным на / ссылкам (массив URL)

{

делает запрос по ссылке() // получает список ссылок,

if (ссылки нет в массиве (URL) )

добавить в URL

}

но вот приключилась лажа с ссылками такого вида

site.ru/path1/../path2/page.html

такая ссылка идентична site.ru/path2/page.html

что мне делать парсить ../ ?

[Удален]
#1

Парсить конечно. Относительные ссылки часто так указываются, так что никуда не деться. Еще из этой же серии - надо последовательные слеши заменять одним. (типа site.ru/////page.html)

4F
На сайте с 25.04.2005
Offline
20
4LF
#2

эх блин ...

спаибо!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий