гадгие ссылки 2 вида /path/qwe

4F

20

4LF

7 августа 2005, 09:07

1169

и не понятно qwe это файл или дириктория

вот если бы все для директория делали вот так /path/qwe/

а так что делать?

[Удален]

7 августа 2005, 09:08

#1

Великая могучая русская языка (я уж про грамотность не говорю, тут даже вопрос не понятен).

4F

20

4LF

7 августа 2005, 09:28

#2

Miha Kuzmin (KMY), :)) , надо больше спать...

а вопрос собственно такой

мой робот конектится на сайт site.ru

делает запрос /

получает страницу и выуживает все ссылки (/news/, /forum/index.php, ..., /path)

затем конектится на сайт site.ru и делает запрос /news/

как определить /path это /path/ (т.е. директория) или файл

[Удален]

7 августа 2005, 09:36

#3

В смысле ? Никак.

4F

20

4LF

7 августа 2005, 09:56

#4

вот блин. а я этот /path использую потом...

= нашел все ссылки по запросу site.ru/path

но потом то он должен запросить все ссылки, который нашел на site.ru/path (а они могут быть относительными...) вот и фиг его знает как дальше быть, какой запрос делать site.ru/path/url_on_path ? а вдруг это файл, и запрос нуно такой site.ru/url_on_path :(

Каким плагином для WordPress Помощь в фильтрации ботов Динамическая монетизация 2.0 в

47

Алексей Пешков

7 августа 2005, 19:24

#5

http://www.faqs.org/rfcs/rfc2396.html

4F

20

4LF

7 августа 2005, 20:50

#6

ээээ, но люди то все равно пишут в html www.site.ru/path !!без /!! сервер то разберется что делать... а вот я...

M

70

Mitos

7 августа 2005, 21:26

#7

"если я что то понимаю то дыра - это норма, а нора ... "

вообщем когда

люди все равно пишут в html www.site.ru/path

они подразумевают обычно

www.site.ru/path/index.htm

www.site.ru/path/index.html

www.site.ru/path/index.php

вообщем какой то индекс, так почему бы просто в случае если URL не содержит в слове path точку не проверять наличие файла path/index.* , где * = html, htm, php (вообщем расширения не такие уж оригинальные)

или я чего не правильно понимаю ?

[Удален]

7 августа 2005, 21:30

#8

4LF, если сервер на запрос GET /path отдает страницу, и на ней относительные ссылки - считайте от корня. Если вебмастер что-то другое подразумевал - это его проблемы.

153

Коля Дубр

8 августа 2005, 06:20

#9

Если я правильно понял проблему, то да, сталкивался я с таким, когда писал индексирующего бота на сайт (делать поиск по сайту на статике).

Подробно объяснять не буду. Суть в том, что когда робот приходит на страницу, он первым делом вычисляет базовый URI для этой страницы (явным образом его задают крайне редко). Далее для каждой ссылки выполняем преобразование к абсолютному URI, руководствуясь пунктом 5.2. Resolving Relative References to Absolute Form вышеупомянутого http://www.faqs.org/rfcs/rfc2396.html, и уже абсолютные URI (от корня, или даже вместе с доменом и протоколом, по потребностям) пишем в массив/БД опять же в зависимости от целей робота.

RFC 2396 одно время лежал в библиотеке Мошкова переведенный, но что-то я его не нашел. Перевод существует.

Разрабатываю общую шину (http://habrahabr.ru/company/floxim/blog/268467/) помаленьку. ...а еще у меня есть бложек (http://www.blogovo.ru/).

Google: низкое качество отдельных Google допускает разный контент Хочу открыть хостинг. Что

4F

20

4LF

8 августа 2005, 13:24

#10

Коля Дубр:
Если я правильно понял проблему, то да, сталкивался я с таким, когда писал индексирующего бота на сайт (делать поиск по сайту на статике).
Подробно объяснять не буду. Суть в том, что когда робот приходит на страницу, он первым делом вычисляет базовый URI для этой страницы (явным образом его задают крайне редко). Далее для каждой ссылки выполняем преобразование к абсолютному URI, руководствуясь пунктом 5.2. Resolving Relative References to Absolute Form вышеупомянутого http://www.faqs.org/rfcs/rfc2396.html, и уже абсолютные URI (от корня, или даже вместе с доменом и протоколом, по потребностям) пишем в массив/БД опять же в зависимости от целей робота.

RFC 2396 одно время лежал в библиотеке Мошкова переведенный, но что-то я его не нашел. Перевод существует.

что то я не догоняю как вычислить "базовый URI для этой страницы"

можно примерчик (perl / php ///)

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Переиграть и победить: как анализировать конкурентов для продвижения сайта