Создайте сайт в Dreamweaver. Сделайте страницы сайта высокорелевантными - Яндекс

Индексация динамических страниц

funsad · 2001-07-13T18:17:00.0000000Z

У меня совершенно чайниковский вопрос. Многие поисковики не индексируют динамические страницы. Но если, например, используется php или perl, то вся динамика заложена на стороне сервера, то есть поисковик видит обычный html-файл. Следовательно, если я правильно понимаю, способов опознать динамическую страницу два: 1) по расширению страницы (php, phtml и др.); 2) по наличию параметров в URL. Внимание, вопрос : если я сделаю обработку ошибки 404 и буду выдавать вместо "псевдо-html" файлов, видимых пользователем и поисковиком в URL, с помощью php/perl реальные страницы, а также все параметры буду передавать в виде усложненного имени страницы, то сможет ли поисковик опознать, что страница динамическая? Для сайта работа с базой данных обязательна, а генерировать статические страницы по затратам времени реально, но их число будет очень большим (думаю, речь будет идти о десятках тысяч) и придется много платить за хостинг. С уважением, Александр Садовский.

298

Григорий Селезнев

12 октября 2001, 20:36

#21

Поисковики не умеют индексировать страницы, получаемые из скрипта, отправляя даныне меотдом POST, следоватьельно не надо думать о их индексациии поисковиками ...

T

17

tsv

12 октября 2001, 22:29

#22

2 Professor насчет POST:

1. Вызывается /form.html

2. Вызов обрабатывается /missing.html, который рисует форму

3. Посетитель заполняет поля формы, давит батон, и происходит вызов /form_action.html, в который параметры передаются POST

4. А на самом деле вызывается /missing.html, к которому и попадают все POST-параметры

5. /missing.html стряпает URL к реальному обработчику формы с добавлением полученных им POST параметров в строку URL реального обработчика форм /handle_all_site_forms.html?var1=value1&var2=value2

6. Этот URL никто и никогда не видит, ни посетитель, ни робот

7. Результаты работы вызванного обработчика печатаем в стандарнтый вывод

8. Посетитель видит в адресной строке /form_action.html

9. А на экране результаты комбинированной работы /missing.html, который печатал что-то свое + использовал результаты работы /handle_all_site_forms.html?var1=value1&var2=value2

Впрочем, такой URL, как /form_action.html, нам индексировать и не надо. Зачем? Лучше вообще прописать в robots.txt строки:

==========================

User-Agent: *

Disallow: form_action.html

==========================

Реально полезное применение обработки 404 через /missing.html несколько другое ... Вот Вам пример: есть большой сайт, контент которого удобно делать в Dreamweaver. А еще (будьте внимательны!) хочется сделать страницы сайта высокорелевантными. Страничек у нас много, тематика обширная, поэтому охота для каждой страницы иметь свои META, и в текст добавить еще ключевых слов (в теги h, b, strong и т.п.).

Возможный вариант следующий:

1. Делаем сайт в Dreamweaver, всем файлам даем расширение .htm

2. index.html в корень сайта либо не кладем, либо он и есть обработчик

3. Договоримся на том, что /index.html нет, а обработчик называется /missing.html

4. Получаем в /missing.html $REQUEST_URI

5. Отрезаем от нее последний символ. $raw_content_file = substr($REQUEST_URI,0,-1)

6. Берем с помощью join('',file()) содержимое реально существующего файла контента: $raw_content = join('',file($raw_content_file))

7. Мы получили в строке содержимое реально лежащего на сервере файла с контентом.

8. Для начала, чтобы наша схема наверняка хорошо работала, заменим ВНУТРИ этой строки все .htm на .html $raw_content = str_replace('.htm','.html',$raw_content); ПРИМЕЧАНИЕ: все возможные пути обхода глюков из-за того, что .htm встречается в самом тексте (не внутри кода) позвольте мне здесь не рассматривать. Проблема - решаемая.

9. Теперь у нас имеется строка с контентом, в которой все ссылки заменены с .htm на .html

10. Оппаньки!!! А ведь на самом деле с этой строкой можно делать что попало, прежде чем передать пользователю!

11. $s = make_relevant_title($raw_content);

12. $s = make_relevant_description($s);

13. $s = optimize_keyword_set($s);

14. $s = optimize_content($);

15. $s = make_this_page_even_MORE_relevant($s);

16.

==================

Header("HTTP/1.0 200 OK");

Header("Last-Modified: ".gmdate("D, M d Y H:i:s",filemtime('missing.html')." GMT");

==================

17. print $s;

18. Уфффф..... упарились... а если серьезно, то такой процессинг файла перед выводом занимает не так уж и много времени в смысле ресурсов сервера

19. Я честная статическая страница!!!!! Ну немножко релевантность повышена, ну и что? Это случайно!!!! Я же не скрипт!! (web-страница /page.html)

20. Расширить и дополнить методику по вкусу. You've got the idea

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

T

17

tsv

12 октября 2001, 22:54

#23

Замечания о Дополнения:

1. http://www.be1.ru/articles/manual/technology.html - ой не все там правильно написано, ой не все. Даже очень многое неправильно, я бы сказал.

2. В отличие от передачи параметров любым способом, как через ?, так и через /, обработчик 404 имеет множество преимуществ, причем только одно из них описано в предыдущем постинге, внимательное изучение показывает, что пользы можно извлечь и больше.

3. Приведенный пример написан для PHP, причем рекомендуется использовать PHP 4.x - там корректнее работа с длинными строками, чем в PHP 3.x. Используемый web-сервер - Apache.

4. Лично я подсмотрел подобную идею на http://detail.phpclub.net Отличный сайт, регулярно его просматриваю, чего и всем советую.

5. БОльшей производительности сервера можно достичь, используя mod_rewrite, но использование скриптового обработчика естественно, более гибкий и мощный инструмент. Хотя и отъедающий ресурсы (и забивающий логи ошибками).

6. Буду чрезвычайно благодарен (как, видимо, и многие участники и посетители форума) за замечания, и особенно за рассказ о собственных технических приемах

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

257

AiK

12 октября 2001, 23:49

#24

mod_rewrite + perl = rullez forewer

На своём сайте я так импорчу новости от компьюленты. И Апорт и Яндекс индексируют.

(Рамблер даже честную статику не индексирует, так что проверить не могу).

298

Григорий Селезнев

14 октября 2001, 00:54

#25

<font face="Verdana" size="2">Originally posted by tsv:
Замечания о Дополнения:

1. http://www.be1.ru/articles/manual/technology.html - ой не все там правильно написано, ой не все. Даже очень многое неправильно, я бы сказал.
</font>

А что неправильно? это выдержки из моих же наблюдений за мною реализованными проектами ;-)) Посещаемость на динамический контент от 3000 в день как нечего делать ...

298

Григорий Селезнев

14 октября 2001, 17:11

#26

Я сподобился написать свою "статью" о том, как индексировать динамический контент. Ваши отзывы?

[This message has been edited by Professor (edited 14-10-2001).]

257

AiK

14 октября 2001, 19:03

#27

Именно что статья в кавычках. Так, два совета бесполезных либо из-за своей очевидности для одних и из-за отсутствия технических подробностей для других.

298

Григорий Селезнев

15 октября 2001, 03:44

#28

Во-первых, не так это и очевидно ... я сам пользуюсь этим давно и только на немногих серверах видел аналогичные вещи.

примеры скриптов? это же основы. нетупому пользователю того, что написано вполне достаточно.

во-вторых, предпочел бы вопросы по существу. а то что это "статья", то я согласен, это так - маленькие хитрости ...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

D

14

Dworkin

26 октября 2001, 17:20

#29

Тег <Location> внутри httpd.conf позволяет указывать каким скриптом разбирать запрос на указанный урл - я думая не надо обmяснять что этот метод лучше чем обработка 404.

------------------

T

2

tupoy

29 ноября 2001, 07:55

#30

Dworkin: Об'ясни по подробней миханизм для ламеров вроде меня.

Я ламер и вопросы у меня тупые :)

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Курс биткоина превысил $50 тысяч

Индексация динамических страниц