Всё зависит от точки входа в проект. Когда полностью с нуля (сбор семантики, проектирование посадочных), когда по тем наработкам, которые есть (в сопроводительной документации), когда последовательный сбор данных со страниц.
В целом, вашу задачу можно реализовать на Zennoposter-е/BAS-е. На вход целевые страницы, дальше парсинг данных через регулярки по выбранной зоне, дальше - выгрузка. Дальше с выгрузкой - опционально, либо обработку массива данных через аналитические сервисы c помощью API. Либо вручную. Тут всё зависит о того, что и насколько вы хотите автоматизировать.
Тогда с этого и надо начинать и создавать тему в правильной категории.
В вашем случае отсекайте подобные URL-ы на уровне htaccess через %{QUERY_STRING}.
В таком варианте наверное только писать с нуля.
Не надо. Яндекс не случайно добавляет этот get параметр, он необходим для учёта данных пользователей, браузеры которых имеют ограничения cookie данных. Это может повлиять на корректный учёт данных вашей статистики Яндекс сервисов.
Исправлять.
Если правильные редиректы на правильную версию https стоит, то несильно.
И следом "Остров" П. Лунгина.
Сегодня посмотрел "Покаяние" Тенгиза Абуладзе.
Восторг. Полный восторг! Особенно в контексте современных реалий.
p.s. Фильм не развлекательный.
Так вам какую задачу-то в итоге надо решить? Сайт самому спарсить, не дать спарсить другим или чтобы сервер нагрузку держал?
Настройке в лягушке последовательно обход с задержкой.
Неожиданно. На форуме есть почитатели творчества Бергмана 👍