LiM

Рейтинг
71
Регистрация
30.11.2001
Как писал [censored]
Три года назад сайт был зарегистрирован в поисковых системах.
В течении полугода сайт координально изменился.
Сейчас поменяли ещё и дизайн.
Но поисковые системы всё ещё выкидывают на старые страницы, которые физически на сервере присутствуют, но никаких ссылок с нового сайта на них нет.
К тому же новые страницы почему то находяться довольно далеко от первых позиций, старые страницы бывают на вторых-пятых местах.
Что нужно сделать, чтобы сайт был пройден роботом заново?

Роботы ходят отталкиваясь только от собственных правил и расчетов - повлиять на них и ускорить заход на какой-либо сайт могут только владельцы поисковика.

Для полного повторного обхода сайта можно сделать только одно: добиться (запретом в robots.txt) полного удаления сайта из индексов, после чего натравить робота повторно. Т.к. я уже говорил, что роботом управлять практически невозможно, считаю этот путь не самым выгодным (к тому же он довольно долгий по времени).

В некоторых поисковиках (Яндекс, Рамблер) есть специальная форма, через которую можно добавить еще не проиндексированные страницы сайта для ускорения их индексации. Этот путь, ИМХО, более правильный.

А то, что старые страницы в индексах сидят, так это же не плохо - просто надо придумать, как посетителей этих страниц "проводить" на новые... ;)

И ещё вопрос: Какие страницы лучше для поисковиков *.shtml или *.html?

Разницы абсолютно никакой нет...

Как писал L'etudient
Откуда такая уверенность?

Из богатого личного опыта... :D

Как писал Nata
Спасибо! Насколько я поняла, если робот пришел на сайт 20 июля, то в течение ближайших полутора месяцев беспокоиться не следует? Правильно?

По моей статистике получается, что робот приходит на индексацию примерно раз в месяц (точнее сказать не могу - вся статистика на работе осталась :p ).

При этом в начале он берет только одну страницу, а все прочие уже только на последующих щагах.

Как писал Valery1
Кто-нибудь знает, что это: "larbin (samualt9@bigfoot.com)".

Неужели так сложно поискать в Google?..

http://larbin.sourceforge.net/index-eng.html

Как писал L'etudient
Уточняю запрос: Может ли слишком маленькая страница быть поводом для неиндексации?

Не может. Размер страницы не помеха для индексации.

Если даш URL страницы, можем поглядеть в конкретике.

Как писал Kost
Уже как-то обсуждалось применение Options MultiViews в апаче и создание страниц index.html.ru, index.html.en и т.д.
[...]
Минусы в том, что если у клиента в броузере нет ни русского языка, ни английского, то он получит код 406 и выбор документов index.html.ru и index.html.en.
Часть таких клиентов можно охватить, сделав симлинки (или копии) английской версии под расширения .html.de, .html.fr и т.д. Также не вполне удобен переход от одной версии к другой, приходится указывать явно имена документов.

Хммм... Если не ошибаюсь, можно просто сделать страничку по адресу index.html и все прочие будут получать ее.

Как писал Ashmanov
Я не юрист, зато имею боевой опыт и консультировался с юристами неоднократно.

Я не думаю, что какая-либо приватность здесь нарушается.
Просто потому, что в нашем законодательстве существуют точные определения того, что такое личная информация. Переписка и содержание других типов сообщений входят в перечень, а тип браузера, IP и путь по сайту - нет. Адрес электронной почты на бесплатном почтовике и данные о владельце также не являются защищаемым конституцией ресурсом - а само содержание ящика является.
Поэтому, когда мне на Рамблер приходил запрос от Управления "Р" или ФСБ на выдачу регистрационных данных и IP владельца ящика на mail.rambler.ru, я, как исполнительный директор компании, выдавал их по запросу, а выемку писем производить мы разрешали только после предъявления постановления суда. Запрос также должен был быть правильно оформлен - он принимается только от семи (кажется) организаций, имеющих лицензию на оперативно-розыскную деятельность и по определённой форме.

Да, по нашему законодательству никакой приватности, возможно, и не нарушается. Но кто сказал, что наше законодательство идеально?

В Вашем примере Вы сами обращаете внимание, что информация по владельцу почтового ящика (та, которую он сам вам сообщил - т.е. не проверенная) выдавалась только определенным фирмам и только после получения определенной формы запроса.

В данном случае на лицо явная возможность любому желающему легко получать информацию о посетителе. Разьве что только не паспортные данные...

Как писал Mark Adamenko


Из переписки с Владиславом Шабановым:
> SV>Мы выкидываем не динамику, а URL, содержащие некоторые
> строки (например,
> SV> /cgi-bin/) Поэтому если робот за страницей сходил, значит в ней
> SV> "запрещенных"
> SV> подстрок нет (на этот момент).

Да, есть такое...

Среди запрещающих индексацию подстрок в адресе есть и такие:

".phtml?", ".php?" - это для любителей PHP... :)

Есть очень простое решение которое использую я:

.../script.php/first-param.html?other=params&...

Забыл сказать куда попадают параметры:

first-param -> $_SERVER['PATH_INFO']

other=params -> $_GET[]

Как писал wolf
Почему это только один этот вывод напрашивается?

Потому, что

  • я знаю людей, которые уперто предпочитают Апорт и ничего другого им не нужно. Чтож, их право...
  • сравнивались посещаемости по запросам, по которым сайт стоит на первой (!) позиции в результатах поиска в каждом из поисковиков. Да, безусловно, это не самые частые запросы, но и не самые редкие - зачем мне самые редкие запросы?.. ;)

a]

Как писал Professor
по приватности: кто будет говорить, что нарушается его приватность - получит счет за использование трафика и чтение контента ;-))

Не понял, в чем тут юмор.

Я вижу, что через такую машинку можно отслеживать конкретного человека без явного на то его разрешения. Более того, если человек недостаточно технически подкован - коих большинство, - он не может не только противостоять такому слежению, но и вообще узнать про наличие слежения.

Ничем иным, кроме как нарушением права на частную жизнь я это назвать не могу. Если я не прав, пусть юристы меня поправят...

Всего: 1000