гадгие ссылки 2 вида /path/qwe

12
4F
На сайте с 25.04.2005
Offline
20
4LF
1082

и не понятно qwe это файл или дириктория

вот если бы все для директория делали вот так /path/qwe/

а так что делать?

[Удален]
#1

Великая могучая русская языка (я уж про грамотность не говорю, тут даже вопрос не понятен).

4F
На сайте с 25.04.2005
Offline
20
4LF
#2

Miha Kuzmin (KMY), :)) , надо больше спать...

а вопрос собственно такой

мой робот конектится на сайт site.ru

делает запрос /

получает страницу и выуживает все ссылки (/news/, /forum/index.php, ..., /path)

затем конектится на сайт site.ru и делает запрос /news/

как определить /path это /path/ (т.е. директория) или файл

[Удален]
#3

В смысле ? Никак.

4F
На сайте с 25.04.2005
Offline
20
4LF
#4

вот блин. а я этот /path использую потом...

= нашел все ссылки по запросу site.ru/path

но потом то он должен запросить все ссылки, который нашел на site.ru/path (а они могут быть относительными...) вот и фиг его знает как дальше быть, какой запрос делать site.ru/path/url_on_path ? а вдруг это файл, и запрос нуно такой site.ru/url_on_path :(

Алексей Пешков
На сайте с 24.03.2004
Offline
47
#5
4F
На сайте с 25.04.2005
Offline
20
4LF
#6

ээээ, но люди то все равно пишут в html www.site.ru/path !!без /!! сервер то разберется что делать... а вот я...

M
На сайте с 21.07.2005
Offline
70
#7

"если я что то понимаю то дыра - это норма, а нора ... "

вообщем когда

люди все равно пишут в html www.site.ru/path

они подразумевают обычно

www.site.ru/path/index.htm

www.site.ru/path/index.html

www.site.ru/path/index.php

вообщем какой то индекс, так почему бы просто в случае если URL не содержит в слове path точку не проверять наличие файла path/index.* , где * = html, htm, php (вообщем расширения не такие уж оригинальные)

или я чего не правильно понимаю ?

[Удален]
#8

4LF, если сервер на запрос GET /path отдает страницу, и на ней относительные ссылки - считайте от корня. Если вебмастер что-то другое подразумевал - это его проблемы.

Коля Дубр
На сайте с 02.03.2005
Offline
153
#9

Если я правильно понял проблему, то да, сталкивался я с таким, когда писал индексирующего бота на сайт (делать поиск по сайту на статике).

Подробно объяснять не буду. Суть в том, что когда робот приходит на страницу, он первым делом вычисляет базовый URI для этой страницы (явным образом его задают крайне редко). Далее для каждой ссылки выполняем преобразование к абсолютному URI, руководствуясь пунктом 5.2. Resolving Relative References to Absolute Form вышеупомянутого http://www.faqs.org/rfcs/rfc2396.html, и уже абсолютные URI (от корня, или даже вместе с доменом и протоколом, по потребностям) пишем в массив/БД опять же в зависимости от целей робота.

RFC 2396 одно время лежал в библиотеке Мошкова переведенный, но что-то я его не нашел. Перевод существует.

Разрабатываю общую шину (http://habrahabr.ru/company/floxim/blog/268467/) помаленьку. ...а еще у меня есть бложек (http://www.blogovo.ru/).
4F
На сайте с 25.04.2005
Offline
20
4LF
#10
Коля Дубр:
Если я правильно понял проблему, то да, сталкивался я с таким, когда писал индексирующего бота на сайт (делать поиск по сайту на статике).
Подробно объяснять не буду. Суть в том, что когда робот приходит на страницу, он первым делом вычисляет базовый URI для этой страницы (явным образом его задают крайне редко). Далее для каждой ссылки выполняем преобразование к абсолютному URI, руководствуясь пунктом 5.2. Resolving Relative References to Absolute Form вышеупомянутого http://www.faqs.org/rfcs/rfc2396.html, и уже абсолютные URI (от корня, или даже вместе с доменом и протоколом, по потребностям) пишем в массив/БД опять же в зависимости от целей робота.

RFC 2396 одно время лежал в библиотеке Мошкова переведенный, но что-то я его не нашел. Перевод существует.

что то я не догоняю как вычислить "базовый URI для этой страницы"

можно примерчик (perl / php ///)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий