- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
и не понятно qwe это файл или дириктория
вот если бы все для директория делали вот так /path/qwe/
а так что делать?
Великая могучая русская языка (я уж про грамотность не говорю, тут даже вопрос не понятен).
Miha Kuzmin (KMY), :)) , надо больше спать...
а вопрос собственно такой
мой робот конектится на сайт site.ru
делает запрос /
получает страницу и выуживает все ссылки (/news/, /forum/index.php, ..., /path)
затем конектится на сайт site.ru и делает запрос /news/
как определить /path это /path/ (т.е. директория) или файл
В смысле ? Никак.
вот блин. а я этот /path использую потом...
= нашел все ссылки по запросу site.ru/path
но потом то он должен запросить все ссылки, который нашел на site.ru/path (а они могут быть относительными...) вот и фиг его знает как дальше быть, какой запрос делать site.ru/path/url_on_path ? а вдруг это файл, и запрос нуно такой site.ru/url_on_path :(
http://www.faqs.org/rfcs/rfc2396.html
ээээ, но люди то все равно пишут в html www.site.ru/path !!без /!! сервер то разберется что делать... а вот я...
"если я что то понимаю то дыра - это норма, а нора ... "
вообщем когда
они подразумевают обычно
www.site.ru/path/index.htm
www.site.ru/path/index.html
www.site.ru/path/index.php
вообщем какой то индекс, так почему бы просто в случае если URL не содержит в слове path точку не проверять наличие файла path/index.* , где * = html, htm, php (вообщем расширения не такие уж оригинальные)
или я чего не правильно понимаю ?
4LF, если сервер на запрос GET /path отдает страницу, и на ней относительные ссылки - считайте от корня. Если вебмастер что-то другое подразумевал - это его проблемы.
Если я правильно понял проблему, то да, сталкивался я с таким, когда писал индексирующего бота на сайт (делать поиск по сайту на статике).
Подробно объяснять не буду. Суть в том, что когда робот приходит на страницу, он первым делом вычисляет базовый URI для этой страницы (явным образом его задают крайне редко). Далее для каждой ссылки выполняем преобразование к абсолютному URI, руководствуясь пунктом 5.2. Resolving Relative References to Absolute Form вышеупомянутого http://www.faqs.org/rfcs/rfc2396.html, и уже абсолютные URI (от корня, или даже вместе с доменом и протоколом, по потребностям) пишем в массив/БД опять же в зависимости от целей робота.
RFC 2396 одно время лежал в библиотеке Мошкова переведенный, но что-то я его не нашел. Перевод существует.
Если я правильно понял проблему, то да, сталкивался я с таким, когда писал индексирующего бота на сайт (делать поиск по сайту на статике).
Подробно объяснять не буду. Суть в том, что когда робот приходит на страницу, он первым делом вычисляет базовый URI для этой страницы (явным образом его задают крайне редко). Далее для каждой ссылки выполняем преобразование к абсолютному URI, руководствуясь пунктом 5.2. Resolving Relative References to Absolute Form вышеупомянутого http://www.faqs.org/rfcs/rfc2396.html, и уже абсолютные URI (от корня, или даже вместе с доменом и протоколом, по потребностям) пишем в массив/БД опять же в зависимости от целей робота.
RFC 2396 одно время лежал в библиотеке Мошкова переведенный, но что-то я его не нашел. Перевод существует.
что то я не догоняю как вычислить "базовый URI для этой страницы"
можно примерчик (perl / php ///)