Индексация динамических страниц

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#21

Поисковики не умеют индексировать страницы, получаемые из скрипта, отправляя даныне меотдом POST, следоватьельно не надо думать о их индексациии поисковиками ...

T
На сайте с 04.07.2001
Offline
17
tsv
#22

2 Professor насчет POST:

1. Вызывается /form.html

2. Вызов обрабатывается /missing.html, который рисует форму

3. Посетитель заполняет поля формы, давит батон, и происходит вызов /form_action.html, в который параметры передаются POST

4. А на самом деле вызывается /missing.html, к которому и попадают все POST-параметры

5. /missing.html стряпает URL к реальному обработчику формы с добавлением полученных им POST параметров в строку URL реального обработчика форм /handle_all_site_forms.html?var1=value1&var2=value2

6. Этот URL никто и никогда не видит, ни посетитель, ни робот

7. Результаты работы вызванного обработчика печатаем в стандарнтый вывод

8. Посетитель видит в адресной строке /form_action.html

9. А на экране результаты комбинированной работы /missing.html, который печатал что-то свое + использовал результаты работы /handle_all_site_forms.html?var1=value1&var2=value2

Впрочем, такой URL, как /form_action.html, нам индексировать и не надо. Зачем? Лучше вообще прописать в robots.txt строки:

==========================

User-Agent: *

Disallow: form_action.html

==========================

Реально полезное применение обработки 404 через /missing.html несколько другое ... Вот Вам пример: есть большой сайт, контент которого удобно делать в Dreamweaver. А еще (будьте внимательны!) хочется сделать страницы сайта высокорелевантными. Страничек у нас много, тематика обширная, поэтому охота для каждой страницы иметь свои META, и в текст добавить еще ключевых слов (в теги h, b, strong и т.п.).

Возможный вариант следующий:

1. Делаем сайт в Dreamweaver, всем файлам даем расширение .htm

2. index.html в корень сайта либо не кладем, либо он и есть обработчик

3. Договоримся на том, что /index.html нет, а обработчик называется /missing.html

4. Получаем в /missing.html $REQUEST_URI

5. Отрезаем от нее последний символ. $raw_content_file = substr($REQUEST_URI,0,-1)

6. Берем с помощью join('',file()) содержимое реально существующего файла контента: $raw_content = join('',file($raw_content_file))

7. Мы получили в строке содержимое реально лежащего на сервере файла с контентом.

8. Для начала, чтобы наша схема наверняка хорошо работала, заменим ВНУТРИ этой строки все .htm на .html $raw_content = str_replace('.htm','.html',$raw_content); ПРИМЕЧАНИЕ: все возможные пути обхода глюков из-за того, что .htm встречается в самом тексте (не внутри кода) позвольте мне здесь не рассматривать. Проблема - решаемая.

9. Теперь у нас имеется строка с контентом, в которой все ссылки заменены с .htm на .html

10. Оппаньки!!! А ведь на самом деле с этой строкой можно делать что попало, прежде чем передать пользователю!

11. $s = make_relevant_title($raw_content);

12. $s = make_relevant_description($s);

13. $s = optimize_keyword_set($s);

14. $s = optimize_content($);

15. $s = make_this_page_even_MORE_relevant($s);

16.

==================

Header("HTTP/1.0 200 OK");

Header("Last-Modified: ".gmdate("D, M d Y H:i:s",filemtime('missing.html')." GMT");

==================

17. print $s;

18. Уфффф..... упарились... а если серьезно, то такой процессинг файла перед выводом занимает не так уж и много времени в смысле ресурсов сервера

19. Я честная статическая страница!!!!! Ну немножко релевантность повышена, ну и что? Это случайно!!!! Я же не скрипт!! (web-страница /page.html)

20. Расширить и дополнить методику по вкусу. You've got the idea

T
На сайте с 04.07.2001
Offline
17
tsv
#23

Замечания о Дополнения:

1. http://www.be1.ru/articles/manual/technology.html - ой не все там правильно написано, ой не все. Даже очень многое неправильно, я бы сказал.

2. В отличие от передачи параметров любым способом, как через ?, так и через /, обработчик 404 имеет множество преимуществ, причем только одно из них описано в предыдущем постинге, внимательное изучение показывает, что пользы можно извлечь и больше.

3. Приведенный пример написан для PHP, причем рекомендуется использовать PHP 4.x - там корректнее работа с длинными строками, чем в PHP 3.x. Используемый web-сервер - Apache.

4. Лично я подсмотрел подобную идею на http://detail.phpclub.net Отличный сайт, регулярно его просматриваю, чего и всем советую.

5. БОльшей производительности сервера можно достичь, используя mod_rewrite, но использование скриптового обработчика естественно, более гибкий и мощный инструмент. Хотя и отъедающий ресурсы (и забивающий логи ошибками).

6. Буду чрезвычайно благодарен (как, видимо, и многие участники и посетители форума) за замечания, и особенно за рассказ о собственных технических приемах

AiK
На сайте с 27.10.2000
Offline
257
AiK
#24

mod_rewrite + perl = rullez forewer

На своём сайте я так импорчу новости от компьюленты. И Апорт и Яндекс индексируют.

(Рамблер даже честную статику не индексирует, так что проверить не могу).

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#25

<font face="Verdana" size="2">Originally posted by tsv:
Замечания о Дополнения:

1. http://www.be1.ru/articles/manual/technology.html - ой не все там правильно написано, ой не все. Даже очень многое неправильно, я бы сказал.
</font>

А что неправильно? это выдержки из моих же наблюдений за мною реализованными проектами ;-)) Посещаемость на динамический контент от 3000 в день как нечего делать ...

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#26

Я сподобился написать свою "статью" о том, как индексировать динамический контент. Ваши отзывы?

[This message has been edited by Professor (edited 14-10-2001).]

AiK
На сайте с 27.10.2000
Offline
257
AiK
#27

Именно что статья в кавычках. Так, два совета бесполезных либо из-за своей очевидности для одних и из-за отсутствия технических подробностей для других.

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#28

Во-первых, не так это и очевидно ... я сам пользуюсь этим давно и только на немногих серверах видел аналогичные вещи.

примеры скриптов? это же основы. нетупому пользователю того, что написано вполне достаточно.

во-вторых, предпочел бы вопросы по существу. а то что это "статья", то я согласен, это так - маленькие хитрости ...

D
На сайте с 16.11.2000
Offline
14
#29

Тег &lt;Location&gt; внутри httpd.conf позволяет указывать каким скриптом разбирать запрос на указанный урл - я думая не надо обmяснять что этот метод лучше чем обработка 404.

------------------

T
На сайте с 29.11.2001
Offline
2
#30

Dworkin: Об'ясни по подробней миханизм для ламеров вроде меня.

Я ламер и вопросы у меня тупые :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий