- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Приветствую всех.
Вопрос по robots.txt: известно, что закрывают от индексации все папки и файлы сайта, которые не имеют полезной (как правило текстовой) информации.
Вопрос: у меня вся инфа, насколько я знаю, содержится в базах, а в public_html - только php-код сайта. Означает ли это, что можно запрещать к индексации всё в папке public_html или все-таки какие-то файлы, хотя и не содержат непосредственно информации, могут быть неразрывно связаны с базами и их запрещение может привести к запрету индексации и самой базы?
Могу конечно спросить программиста, но мне надо понять, как корректно сформулировать для него вопрос?
Спасибо
Приветствую всех.
Вопрос по robots.txt: известно, что закрывают от индексации все папки и файлы сайта, которые не имеют полезной (как правило текстовой) информации.
Вопрос: у меня вся инфа, насколько я знаю, содержится в базах, а в public_html - только php-код сайта. Означает ли это, что можно запрещать к индексации всё в папке public_html или все-таки какие-то файлы, хотя и не содержат непосредственно информации, могут быть неразрывно связаны с базами и их запрещение может привести к запрету индексации и самой базы?
Могу конечно спросить программиста, но мне надо понять, как корректно сформулировать для него вопрос?
Спасибо
Не защищайте лишь только те скрипты, которые выдёргивают данные из базы. Подлежат запрету к индексации, например, админка - нечего роботам знать вашу CMS-ку :)
у меня вся инфа, насколько я знаю, содержится в базах, а в public_html - только php-код сайта.
Это внутреннее представление, робот о нем ничего не знает и проиндексировать Вашу базу не может.
Папка public_html ему тоже неизвестна.
Робот видит то, до чего может добраться сторонний пользователь. Из этого и исходите.
Aveter, у вас все линки на страницы идут типа
site.ru/index.php?param1=dsfds¶m2=3
т.е. по сути идет обращение только к одной странице, на которой контент уже генерится автоматически, в зависимости от переданных параметров... А как и откуда контент появляется на вашей странице ПС откровенно говоря не должно... Так что разрешена должна быть эта страница, а остальное уже хозяин - барин...
basilic, Skie - спасибо.
Aveter, у вас все линки на страницы идут типа
site.ru/index.php¶m1=dsfds¶m2=3
т.е. по сути идет обращение только к одной странице, на которой контент уже генерится автоматически, в зависимости от переданных параметров...
Вы хотите сказать, что если я оставлю видимым роботу только файл index.php и все производные от него (т.е. index.php + что-то), то есть напишу директиву типа Allow: /index.php*, то этого достаточно, чтоб индексировалась вся полезная информация на сайте, а все остальное можно запретить, я вас правильно понял?
Я не знаю, поможет ли вам это "поставить диагноз", но на всякий случай скажу, что у меня все информационные страницы строятся по такой схеме :
http://www.mysite.ru/word/n1/n2/n3/ где word это слово типа page, cat, articles, info и т.д., а n1, n2, n3 и т.д. это числа (номера страниц, категорий или подкатегорий). Система информации на сайте 3-х уровневая: основные страницы, категории, подкатегории, на любой из которых могут размещаться статьи (то есть через меню сайта делается выборка ведущая к статьям или другой текстовой информации на любом из этих уровней)
Aveter, если бы линки были динамические, т.е. вида site.ru/index.php?param1=dsfds¶m2=3, тогда Allow: /index.php* вполне хватило бы...
http://www.mysite.ru/word/n1/n2/n3/
т.е. у вас прописанно подменятьь ддинамические урлы статическими... Для такой схемы достаточно прописать что-то вида: Allow: /word/
Только и в том и другом случае, если нужна индексация картинок и т.п. нужно посмотреть по какому адресу их CMS прописала и тот каталог тоже разрешить...
если бы линки были динамические, т.е. вида site.ru/index.php?param1=dsfds¶m2=3, тогда Allow: /index.php* вполне хватило бы...
Понятно, спасибо. Только есть один нюанс - все эти папки типа word (т.е. page, cat, articles, info) физически не существуют в public_html. Видимо они создаются (где - не знаю, но врядли в public_html) временно во время выборки (т.е. клика на какой-либо пункт из основного меню сайта) и затем уничтожаются. В связи с этим вопрос - нет ли тут каких-то нюансов и будет ли команда типа Allow: /word/ работать?
если нужна индексация картинок и т.п.
Простите, а разве картинки индексируются? Насколько я помню из книги ашманова, из графики индексируется только флеш и о, потому что он содержит текст. Проясните плиз.
Спасибо.
Намедни сделал FAQ по robots.txt
В связи с этим вопрос - нет ли тут каких-то нюансов и будет ли команда типа Allow: /word/ работать?
Будет для робота статические или динамические страницы пофиг. Но учите, что алоу это расширение синтаксисиса и часть роботов не будет ее понимать. Яша ее понимает.
Hkey, спасибо за ссылку.
Но учите, что алоу это расширение синтаксисиса и часть роботов не будет ее понимать. Яша ее понимает.
А как насчет Гугла и Яху - они понимают allow? Если нет, как им сказать "разрешаю индексировать папку folder1 и все что ниже по уровню (вложено)"?
Hkey, спасибо за ссылку.
А как насчет Гугла и Яху - они понимают allow? Если нет, как им сказать "разрешаю индексировать папку folder1 и все что ниже по уровню (вложено)"?
Яху нах отрубите - трафа много жрет и нифига не приносит, а гугл должен понимать. Залогитесь в службу гугла для веб. мастеров. Там тестер есть роботов.
Понятно, спасибо. Только есть один нюанс - все эти папки типа word (т.е. page, cat, articles, info) физически не существуют в public_html. Видимо они создаются (где - не знаю, но врядли в public_html) временно во время выборки (т.е. клика на какой-либо пункт из основного меню сайта) и затем уничтожаются. В связи с этим вопрос - нет ли тут каких-то нюансов и будет ли команда типа Allow: /word/ работать?
Понятное дело, что не существуют... Это просто в файлике .htaccess прописанны павила, по которым урлы вида, с которыми реально работает CMS:
site.ru/index.php?param1=dsfds¶m2=3
подменяются урлами вида:
http://www.mysite.ru/word/n1/n2/n3/
но все это происходит прозрачно для пользователей и поисковиков. Поисковики, как и пользователи не лазят по папкам на вашем сервере, а просто дают запрос серверу, мол дай мне документ с таким урлом, сервер решает в зависимости от урла, что ответить и отдыет резальтат клиенту (человеку или ПС). Только ПС, когда находят какой-либо урл на ваш сайт, сначала по маске сравнивают его с правилами в robots.txt и если правилами индексация его не запрецена, то посылают запрос серверу, дай мол мне этот документ.