- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Робот Рамблера отсканировал только заглавную страницу на http://shpora-da.narod.ru/
Что делать?
Ждать и надеяться, как это ни банально
два варианта:
1. ждать пока рамблер запустит spyderа на новые сайты. Но я так понимаю этого не было месяцев 5 минимум.
2. ручками прописать ему страницы сайта
два варианта:
1. ждать пока рамблер запустит spyderа на новые сайты. Но я так понимаю этого не было месяцев 5 минимум.
2. ручками прописать ему страницы сайта
1. Вы не правы. Мы сейчас обновляем индексы раз в месяц. В наших списках действительно есть еще новые сайты, на которые робот должен был сходить в декабре, а еще не дошел, но таких немного - несколько сотен.
2. Да, это в некоторых случаях помогает
С уважнием,
Влад Шабанов
[This message has been edited by vs (edited 18-01-2002).]
Влад, а по ссылкам робот ходить собирается? Или вытаскивать запылившийся уже автосабмиттер AiK`а?
Влад, а по ссылкам робот ходить собирается?
Или вытаскивать запылившийся уже автосабмиттер
AiK`а?
По ссылкам робот ходит. По редиректам - тоже.
Для того, чтобы Рамблер прошелся по всему серверу достаточно сделать совсем немного вещей:
1) Скормить ему небольшое количество страниц, с которых в 1-2 клика видно все, что хочется заиндексировать. Сабмитить все страницы совсем не обязательно.
2) Постараться, чтобы среди страниц не было "мусора" - страниц, на которых только дизайн и нет никакого наполнения. Есть любители писать скрипты так, что если параметры неправильные, скрипт просто выдает дизайн (всякие рамки, навигацию и прочую беллетристику) и код 200 (успех). А потом на страницах своего же сайта кладут эти самые ссылки с непрвильными параметрами.
В результате наш робот бродит по одинаковм страницам, не содержащим ничего хорошего, а до нормальных текстов добирается очень нескоро.
3) Крайне желательно, чтобы URL были простыми и незамысловатыми. Пример: С точки зрения практически любого поисковика, URL
/foo/bar/xxx.yyy?a=1&b=2&c=3
,
/foo/bar/xxx.yyy?b=2&c=3&a=1
и
/foo/bar/xxx.yyy?b=2&c=3
совсем разные вещи, хотя обычно скрипты разбирают параметры независимо от порядка и с учетом default значений для тех параметров, которые в QUERY_STRING отсутствуют.
Соответственно, на этапе выкачки оказывается, что мы накачали 100 тыс. ссылок, из которых на самом деле уникальных - 2 тыс, а остальное - вариации перестановок параметров, добавление случайных чисел (session id и прочая дрянь) и т. д.
Теперь представьте себе, что список страниц для какого-то сервера внезапно распух с 10 киолбайт до пары мегабайт. Туда обычно лезет человек и начинает "тюкать топором".
Так что, постарайтесь, чтобы элементы URI всегда были в некотором каноническом порядке, а если параметр равен своему default значению, то чтоб его не было (ну, или наоборот, всегда был).
4) Последнее, что хотел сказать - не обижайте наших роботов. Не подсовывайте им специальных страниц, которые ничего общего не имеют с тем, что видят пользователи. Если сайт попал в стоп-лист, его оттуда потом никакая из автоматич. процедур не достанет, а вся информация о сайте удаляется.
С уважением,
Влад Шабанов
Да я, в общем-то, давно уже подсунул ему следующую страницу
откуда в два клика видна любая страница форума.
Вот только эффекта не наблюдаю.
2) Постараться, чтобы среди страниц не было "мусора" - страниц, на которых только дизайн и нет никакого наполнения. Есть любители писать скрипты так, что если параметры неправильные, скрипт просто выдает дизайн (всякие рамки, навигацию и прочую беллетристику) и код 200 (успех). А потом на страницах своего же сайта кладут эти самые ссылки с непрвильными параметрами.
В результате наш робот бродит по одинаковм страницам, не содержащим ничего хорошего, а до нормальных текстов добирается очень нескоро.
А разве ценность текста на отдельной странице никак не оценивается? Например, посчитать количество семантических связей между словами и среднюю длину предложения. У вас же вроде нормальная морфология.
3) Крайне желательно, чтобы URL были простыми и незамысловатыми. Пример: С точки зрения практически любого поисковика, URL
/foo/bar/xxx.yyy?a=1&b=2&c=3
,
/foo/bar/xxx.yyy?b=2&c=3&a=1
и
/foo/bar/xxx.yyy?b=2&c=3
совсем разные вещи, хотя обычно скрипты разбирают параметры независимо от порядка и с учетом default значений для тех параметров, которые в QUERY_STRING отсутствуют.
Соответственно, на этапе выкачки оказывается, что мы накачали 100 тыс. ссылок, из которых на самом деле уникальных - 2 тыс, а остальное - вариации перестановок параметров, добавление случайных чисел (session id и прочая дрянь) и т. д.
Вообще это утверждение немного удивляет. Разделяйте в линке скрипт и его параметры и обрабатывайте соответствующим образом. Сходу могу посоветовать что-то вроде этого:
$url="/foo/bar/xxx.yyy?b=2&c=3";
if ($url=~/^(\S+)?\?(\S+)/)
{
my $scriptroot=$1;
my $parstr=$2;
my @par=split(/\&/,$parstr);
my @sortpar=sort @par;
print "$scriptroot\n @par\n @sortpar";
};
В @sortpar всегда будет одна и та последовательность параметров и не нужно будет ходить лишний раз по ссылкам при перестановках параметров.
[This message has been edited by Vyacheslav Tikhonov (edited 19-01-2002).]
Вообще это утверждение немного удивляет. Разделяйте в линке скрипт и его параметры и обрабатывайте соответствующим образом. Сходу могу посоветовать что-то вроде этого:
К сожалению, есть много примеров, когда это не работает. Причем не всегда на живых серверах можно эксперименты ставить (пересортировать, скачать заново и сравнить) - бывает даже, что они от этого ломаются. То же самое касается необязательных параметров.
Кстати, а что Вы будете делать с теми, кто динамику маскирует? Когда нету символа '?' в URL.
Что же касается анализа полезности, то на лету его делать очень сложно - нужно ведь совокупность страниц сервера анализировать. А качаем мы параллельно очень много серверов. Поэтому робот качает все подряд, а потом уже другие программы клеят дубли, выкидывают явный мусор и т. д.
Так что, на сегодняшний момент, чем аккуратнее написан web-сайт, тем лучше мы его будем индексировать.
Действительно было бы неплохо, если бы сам разработчик сортировал аргументы скрипта на своих страницах (при условии, конечно, что он будет следить за результатом, тестировать ссылки и т. д.).
С уважением,
Влад
Да я, в общем-то, давно уже подсунул ему следующую страницу
откуда в два клика видна любая страница форума.
Вот только эффекта не наблюдаю.
В базе Рамблера этот URL отсутствует.
Вы его подали на регистрацию год назад, 29.01.2001-10:50:44
Почему его нет в базе, разбираться долго, надо логи за год поднимать. Возможно, на момент скачивания (где нибудь в феврале прошлого года) сервер не ответил, или еще что-нибудь.
Сейчас пауку известны 54 URL с Вашего сервера. Сабмиты ссылок (addsite.cgi) были в январе прошлого года (14 штук), потом в феврале (2 штуки), потом в ноябре, но в ноябре Вы подавали исключительно динамику .php, которую наш робот пока не ест.
С уважением,
Влад Шабанов
[This message has been edited by vs (edited 19-01-2002).]
Понятно. Постараемся закинуть еще раз.