Индексация динамических страниц

KT
На сайте с 29.04.2002
Offline
0
#51

Все работает почти замечательно - привел урлы к нормальному виду, дабы

поисковики типа рамблера и апорта нормльно индексировали содержание

сайта не считая документы динамическими - апачем обрабатываю 404

ошибку и далее разбираю урл

выдаю

Header("Status: HTTP/1.0 200 OK");

Header("Last-Modified: ".gmdate("D, M d Y H:i:s",filemtime("index.php"))." GMT");

Броузер отлично все отображает , но за месяц я удивился почему упала

посещаемость, особенно с яндекса - оказалось что яндекс

при попытке индексации натыкается на следующее:

"Ваш URL http://www.****.ru/articles/16/192/ не был внесен в нашу базу данных.

Причина:

Ваш сервер не посылает код состояния"

В чем грабли?

Если выдавать хедер как написано в форуме без начального status, то вапче нифига нигде не оторбражается)

[Удален]
#52

А какие еще заголовки выдаешь? Может например Connection: close не хватет?

Алексей

KT
На сайте с 29.04.2002
Offline
0
#53

вручную выдаю только эти - добавление конекшн клоуз не улучшило ситцацию

M
На сайте с 25.01.2001
Offline
57
#54

KycT

Попробуй

Header("Status: 200");.

KT
На сайте с 29.04.2002
Offline
0
#55

melkov

вы гений!

K
На сайте с 26.06.2001
Offline
51
#56

Сколько ни говорили, что Рамблер динамику не индексирует, а мои странички с форума у него есть, причем неплохое количество, см.: http://search.rambler.ru/cgi-bin/rambler_search?words=%FD%EC%E8%E3%F0%E0%F6%E8%FF%20%E2%20%E3%E5%F0%EC%E0%ED%E8%FE&sort=0&site=e167bacd

Копий Дмитрий

С уважением,Копий Дмитрий
J
На сайте с 06.06.2001
Offline
40
#57

Кстати, где-то мелькала инфа о том, как заставить Апач передавать POST переменные обработчику 404 ошибки. И что по умолчанию переменные не передаются.

Кто иожет точно сказать где и как включить эту передачу POST переменных?

Евгений.

Евгений
Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#58
Первоначальное сообщение от funsad

Вылавливание дублей -- это борьба с параметрами по умолчанию и перестановкой параметров. Для скрипта /xxx.html?var1=a&var2=b может быть равно /xxx.html?var1=a, /xxx.html?var2=b, /xxx.html?var2=b&var1=a или десятку других комбинаций. Для поисковика это все разные URL.

С уважением,
Александр Садовский.

вот здесь я бы не соглашусь, это верно только с натяжкой и только для одного домена ... как, например, с "print page" ? но это все мелочи ... я как-то делал один и тот же контент xxx.html?num и yyy.html ...

где-то на яндексе лежит документ на английском о том как с помощью обратной матрицы отлавливаются дубли ... если я не напутал ...

F
На сайте с 15.11.2000
Offline
116
#59
Первоначальное сообщение от Professor
вот здесь я бы не соглашусь, это верно только с натяжкой и только для одного домена ...

Так об этом речь и шла -- о проблеме дублирования, появляющейся из-за динамических страниц.

Первоначальное сообщение от Professor
как, например, с "print page" ? но это все мелочи ... я как-то делал один и тот же контент xxx.html?num и yyy.html ...

Все верно, еще можно вспомнить статьи, разбитые на части, прокомментированные статьи и т.д.

Что касается статьи Яндекса, то она есть тут:

An efficient method to detect duplicates of Web documents with the use of inverted index.

С уважением,

Александр Садовский.

Fad
На сайте с 25.09.2001
Offline
124
Fad
#60

Вот в Яндексе нашел.

<Веб-сервер, вместе с самим HTML-документом, присылает также <дополнительную информацию в так называемых "заголовках HTTP". В <частности, он может присылать дату последнего изменения документа в <заголовке "Last-Modified". Настоятельно рекомендуем, чтобы ваш веб-<сервер присылал эту дату. Добиться этого можно, соответствующим <образом настроив сервер и, возможно, слегка исправив используемые CGI <или ISAPI скрипты.

В связи с этим созрел вопрос...

Понижает ли ранг страницы Яндекс, если сервер не выдает дату изменения документа.

С уважением, Фадеичев Андрей, руководитель проекта "Биржа контента eTXT.ru" (http://www.etxt.ru/)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий