Как просканировать часть сайта?

zzzzz
На сайте с 12.12.2006
Offline
206
567

Пытаюсь в screaming frog seo spider просканировать часть сайта, в настройках роботс для проги указал следующие правила:

User-agent: *

Disallow: /

Allow: *chekhly-na-sidenya*

т.е. меня интересуют только урлы, содержащие chekhly-na-sidenya

Однако screaming frog не бурёт в расчёт Allow и пишет, что сайт закрыт в роботс.

Кто нибудь знает как победить или может другой софт посоветуете?

/////
[Удален]
#1

Для начала заменить Allow: *chekhly-na-sidenya* на Allow: /*chekhly-na-sidenyа - ну и если не раздуплится то все, пиши пропало.

zzzzz
На сайте с 12.12.2006
Offline
206
#2
Miha Kuzmin (KMY):
Для начала заменить Allow: *chekhly-na-sidenya* на Allow: /*chekhly-na-sidenyа - ну и если не раздуплится то все, пиши пропало.

Пробовал, не пашет..

SC
На сайте с 11.02.2013
Offline
57
#3

Потому что спецификацией формата robots.txt не определен приоритет allow/disallow в случае использования подстановочных знаков, например звездочки: https://developers.google.com/search/reference/robots_txt

По правильному, это надо делать не через robots, а штатными средствами софта, например фильтром Configuration -> Include: https://www.screamingfrog.co.uk/seo-spider/user-guide/configuration/


This feature allows you to control which URL path the SEO Spider will crawl via regex. It narrows the default search by only crawling the URLs that match the regex which is particularly useful for larger sites, or sites with less intuitive URL structures. Matching is performed on the url encoded version of the URL.
zzzzz
На сайте с 12.12.2006
Offline
206
#4
Serg_CS:
По правильному, это надо делать не через robots, а штатными средствами софта, например фильтром Configuration -> Include: https://www.screamingfrog.co.uk/seo-...configuration/

Понимать бы ещё в этом 😎

[Удален]
#5

Вообще там по ссылке, к слову, написано

By default the SEO Spider will only crawl the subfolder (or sub directory) you crawl from forwards. However, if you wish to start a crawl from a specific sub folder, but crawl the entire website, use this option.
zzzzz
На сайте с 12.12.2006
Offline
206
#6
Miha Kuzmin (KMY):
Вообще там по ссылке, к слову, написано

Ну инглиш у меня вери вери бед, а в гуглпереводе это звучит так:

По умолчанию SEO Spider будет сканировать только подпапку (или подкаталог), которую вы сканируете, начиная с форвардов. Однако, если вы хотите начать сканирование из определенной подпапки, но сканировать весь сайт, используйте эту опцию.

Лично я ничего не понял...

[Удален]
#7

Ну все он правильно перевел, чего неясного то? Вам на кнопочку если надо нажать, то это не сюда, напрягите хоть чуть мозг, если он есть - сказано четко и прямо.

SC
На сайте с 11.02.2013
Offline
57
#8
zzzzz:
Понимать бы ещё в этом 😎

Что именно не понятно? 🤪

В меню выбираете Configuration -> Include и указываете регулярку .*chekhly-na-sidenya.*

По умолчанию SEO Spider будет сканировать только подпапку (или подкаталог), которую вы сканируете, начиная с форвардов. Однако, если вы хотите начать сканирование из определенной подпапки, но сканировать весь сайт, используйте эту опцию.

Ну это подходит только в случае, если нужные урлы лежат в одной папке, например, если надо отсканить всё, что лежит в /articles/, /news/, /categories/covers/ и т.п - при правильном ЧПУ на сайте так и должно быть. Для случаев, когда нужно вхождение в любом месте урла, надо использовать Include-правила на основе регулярных выражений.

[Удален]
#9
Serg_CS:
надо использовать Include-правила на основе регулярных выражений.

Совет слишком сложен для тс.

zzzzz
На сайте с 12.12.2006
Offline
206
#10
Serg_CS:
Что именно не понятно? 🤪
В меню выбираете Configuration -> Include и указываете регулярку .*chekhly-na-sidenya.*

Премного благодарен сударь!

Miha Kuzmin (KMY):
Совет слишком сложен для тс.

есофкос

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий