Владимир Иванов рассказал владельцам сайтов и вебмастерам, что прежде всего, личную информацию посетителей сайта необходимо защитить, например, закрыть паролем. Если же такая информация никак не защищена, она запросто может стать доступна всем пользователям сети. Для этого достаточно оставить где-нибудь в интернете ссылку на страницу пользователя — хоть на страницу заказа, хоть на страницу регистрации.
Вторая важная вещь — необходимо запретить поисковым роботам индексировать страницы сайтов с информацией, которая не должна стать публичной. Для этого существует файл robots.txt. То есть владелец сайта или вебмастер всегда может позаботиться о том, чтобы поисковые роботы обходили стороной страницы, содержимое которых не должно попасть в поисковые системы. Проверить, какие страницы сайта проиндексированы Яндексом, можно с помощью сервиса Яндекс.Вебмастер.
Чтобы все понимали, как данные попадают в поисковики, Владимир Иванов подробно рассказал о том, что происходит с веб-страницей от момента ее создания до попадания в результаты поиска. Именно в это время происходит индексация страницы, не без помощи вебмастера, который отправляет запрос на индексирование поисковым системам, а возможно и отправляет ссылку знакомым, в блоги или соцсети. Так получается, что на страничку не зашел еще ни один живой человек, но про нее уже могут знать тысячи программ по всему интернету.
Если на страничке есть картинки или flash-объекты с других ресурсов, то о странице будут знать все эти ресурсы. При наличии на странице iframe о ней будет известно системе показа рекламы или сервисам других систем, загруженных через iframe. Если вебмастер использовал скрипты из внешней библиотеки, счетчики и системы сбора статистики, то о новой страничке будут знать все эти сервисы и их провайдеры. Данные получат прокси-серверы и серверы антивирусной и антифишинговой систем, встроенных в браузер…
Поисковая система получает из разных источников только ссылки, а не содержимое страницы. И ссылок этих очень много. Но прежде чем поисковый робот обращается к конкретной странице сайта, он обязательно проверяет файл robots.txt. И если владелец сайта не желает, чтобы новая страница индексировалась поисковой системой, он может попросить поискового робота этого не делать. И поисковый робот не будет этого делать. Конечно, злоумышленники, желающие украсть важный файл, не обратят внимание на содержимое robots.txt, но все крупные поисковые системы в обязательном порядке выполняют директивы этого файла.
Только если поисковый робот убедился, что robots.txt не запрещает индексирование странички, он будет ее индексировать. Это — единственный путь, по которому содержимое страницы попадает в поисковую систему. Другого способа нет.
Когда робот получил контент страницы, он снова применяет фильтры — отсекает мусор и спам. После того, как страницы отфильтрованы, можно приступать к ранжированию. Все страницы, доступные поисковой системе на этом этапе, могут появиться в результатах поиска. Таким образом, в поиске находится всё, что открыто всем и не запрещено вебмастером.