- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Каким образом оптимальнее всего "вычислять", что в ссылке передается сессия для того, что бы не засорять базу поисковика?
Один из вариантов - проверять, если в УРЛе есть переменная, которая состоит из 'a..f' и '0..9' и ее длина 32 - то это сессия.
Есть еще ваиант анализировать имя параметра (на наличие в имени 'ses').
Чем плохи/хороши такие варианты?
Какие еще возможны?
InSAn,
Многие очень любят писать "sid" - так что имя переменной - не факт.
Но - обычно эта переменная ставится в конце, и, мне кажется, также можно анализировать ее длину.
Алгоритм:
если имя параметра состоит из 'sess' либо 'sid'
либо
значение параметра состоит из 'a..f' и '0..9' и его длина 32
то это сессия.
Кто дополнит? ;)
Если crawler будет принимать cookie и за один проход индекировать много страниц с одного сайта, то таких страниц с сессией в URL'е наверное будет не много. Я имею ввиду сессии PHP которые передаются в параметрах только один раз и затем хранятся в cookie браузера.
А стоит ли позволять ему принимать куки?
Налицо - множество минусов. Например, сайт не за один проход считывается для последующей индексации.
А стоит ли позволять ему принимать куки?
Налицо - множество минусов. Например, сайт не за один проход считывается для последующей индексации.
При считывании страницы, нужно смотреть на пришедшую куку в которой записывается идентификатор сессии и искать этот идентификатор в URL'ях контента страницы, если идентификатор нашелся - можно смело делать выводы что это переменная сессии и выкусывать его с URL. Такой способ работает для любого количества считываемых за один проход страниц.
Хм... Спасибо за подсказку :)
А вот что делаю поисковики (или должны делать), когда встречается УРЛ с сессией?
Выкусывать сессию и запрашивать странцу без нее? Либо удалять страницу из индекса?
Вроде бы второе - более правильно, но тогда теряется много уникальных документов...
Хм... Спасибо за подсказку :)
А вот что делаю поисковики (или должны делать), когда встречается УРЛ с сессией?
Выкусывать сессию и запрашивать странцу без нее? Либо удалять страницу из индекса?
Вроде бы второе - более правильно, но тогда теряется много уникальных документов...
Похоже ничего не делают :) Весь вопрос как определить переменная сессии это или нет? Не исключено что на каком нибудь сайте переменная 'PHPSESSID' даже с 32 байтовым значением будет не сессией.
Как вариант, можно пойти алгоритму, описанному выше, но еще встроить одну дополнительную проверку:
а) При считывании страницы, нужно смотреть на пришедшую куку в которой записывается идентификатор сессии и искать этот идентификатор в URL'ях контента страницы, если идентификатор нашелся - сессия ((с) eshum
)
иначе:
б) Если имя параметра состоит из 'sess' либо 'sid'
либо
значение параметра состоит из 'a..f' и '0..9' и его длина 32
- возможная сессия.
Для варианта б) вводим дополнительную проверку:
б1) Если странцы с параметром и "выкушенным" параметром совпадают - сессия.
Совпадение в варианте б1) нужно производить идентичности контента/структуры (либо воспользоваться алгоритмом "шинглов")
Дополнения? ;)
Ну имен параметра много разных может быть - у всяких cms и распространенных скриптов, например osCsid. Собирать надо базу такую наверно.
Какое отношение тема имеет к поисковым технологиям? Переношу топик.