- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Итак, составил робота себе на сайт. Сайт на двиге дле. ПОзапрещал к индексу дублирующие контент страницы. Робот выглядит вот так:
User-agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /2013/
Disallow: /tags/
Disallow: /page/
Sitemap: http://site.ru/sitemap.xml
Но есть одна непонятка. Если /page/ запрещает индексировать страницы какого либо раздела, кроме основной, то как он проиндексирует контент на ней??
И вот еще. Если мой сайт забить в гугл,то появляется несколько ссылок запрещенных в роботе с описанием:"Описание веб-страницы недоступно из-за ограничений в файле robots.txt. Подробнее..." Они исчезнут потом*????
/page/ лучше убрать.
Но есть одна непонятка. Если /page/ запрещает индексировать страницы какого либо раздела, кроме основной, то как он проиндексирует контент на ней??
Никак. Индексации /page/ не будет. Но бот может добраться на страницах новостей через xml карту или похожих новостей.
И вот еще. Если мой сайт забить в гугл,то появляется несколько ссылок запрещенных в роботе с описанием:"Описание веб-страницы недоступно из-за ограничений в файле robots.txt. Подробнее..." Они исчезнут потом*????
Могут исчезнуть, могут не исчезнуть...
/page/ лучше убрать.
Никак. Индексации /page/ не будет. Но бот может добраться на страницах новостей через xml карту или похожих новостей.
Хм. А почему к примеру анализатор яндекса утверждает, что только ссылки вида site.ru/page/ запрещены, а site.ru/catalog/page/ разрешены. То есть ПС Будет индексировать все странички в разделах, но обойдет странички на главной??
Я не просто так хочу добиться идеального робота, а хочу, чтобы яндекс ссылки не выкинул. Читал, что он может такое даже за дубли.
---------- Добавлено 17.04.2013 в 23:01 ----------
Могут исчезнуть, могут не исчезнуть...
Забавно)))
Тс вот какой должен быть Robots.txt
User-agent: *
Disallow: /engine/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
О что бы закрыть не нужные страницы от индексации сделайте это:
в engine/engine.php
Находим далее:
if ($config['allow_rss']) $metatags .= <<<HTML;
Добавляем выше:
if (
//$do == 'addnews' OR /* Страница добавления новости с сайта */
//$do == 'alltags' OR /* Страница просмотра списка тегов */
//$do == 'feedback' OR /* Страница формы обратной связи */
//$do == 'favorites' OR /* Страницы закладок пользователей */
//$do == 'lastcomments' OR /* Страница просмотра всех последних комментариев на сайте, в т.ч. комментариев отдельного пользователя */
//$do == 'lastnews' OR /* Страница просмотра всех последних новостей */
//$do == 'lostpassword' OR /* Страница восстановления пароля */
//$do == 'pm' OR /* Страницы личных сообщений пользователей */
//$do == 'register' OR /* Страница регистрации нового пользователя */
//$do == 'rules' OR /* Страница правил сайта */
//$do == 'stats' OR /* Страница статистики сайта */
//$do == 'search' OR /* Страница поиска и результатов поиска */
//$do == 'static' OR /* Все статические страницы */
//$do == 'tags' OR /* Просмотр новостей по тегу */
//$do == 'xfsearch' OR /* Просмотр новостей новостей по доп. полям */
//$subaction == 'allnews' OR /* Просмотр всех новостей пользователя */
//$subaction == 'newposts' OR /* Просмотр непрочитанных новостей для пользователя */
//$subaction == 'showfull' OR /* Просмотр полной новости */
//$subaction == 'userinfo' OR /* Просмотр профиля пользователя */
//$dle_module == 'date' OR /* Просмотр архива новостей за год/месяц/день. Заменяет собой сразу все три следующие строки */
//($year != '' and $month == '' and $day == '') OR /* Просмотр архива новостей за год */
//($year != '' and $month != '' and $day == '') OR /* Просмотр архива новостей за месяц */
//($year != '' and $month != '' and $day != '' and $subaction == '') OR /* Просмотр архива новостей за день */
//(intval($_GET['cstart']) > 1 ) OR /* Любые страницы пагинации */
//($dle_module == 'main' and (intval($_GET['cstart']) > 1)) OR /* Страницы пагинации для главной страницы */
//($do == 'cat' and $category != '' and $subaction == '' and (intval($_GET['cstart']) > 1)) OR /* Страницы пагинации только для категорий */
//($do == 'cat' and $category != '' and $subaction == '') OR /* Просмотр любой категории */
//($do == 'cat' and $category_id == 'X' and $subaction == '') OR /* Просмотр определенной категории. X заменить на id категории */
$catalog != '' /* Просмотр каталога по буквенному идентификатору */
) $metatags .= <<<HTML
\n<meta name="robots" content="noindex,nofollow" />
HTML;
Чтобы задействовать определенное правило, следует удалить впереди символ //
Все!
Хм. А почему к примеру анализатор яндекса утверждает, что только ссылки вида site.ru/page/ запрещены, а site.ru/catalog/page/ разрешены.
Потому что /page/ на запрещает /catalog/page/. Для него нужно написать запрет с маской /*/page/
Тс вот какой должен быть Robots.txt
Роботс от алаева. Только сегодня видел вопрос про этот роботс где-то в разделе Любые вопросы.
Тс вот какой должен быть Robots.txt
User-agent: *
Disallow: /engine/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
Значение хост разве не только для яшки?? Я где-то целый холивар наблюдал, что если и писать Host: site.ru, то только для яндекс бота
Значение хост разве не только для яшки?? Я где-то целый холивар наблюдал, что если и писать Host: site.ru, то только для яндекс бота
Host только для яшки но под общею секцию, в конце после всех правил.