- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Возник такой вопрос:
Как поисковики "собирают" страницу из исходного кода? Как они индексируют страницы?
Именно процесс "сборки", каким образом для индексации выделяется именно текст, а не что-то иное?
Учитываются ли ими скрипты?
Робот ничего не "собирает", он выкачивает страницу в таком же виде, как она отображается в броузере. При этом не важно, страница генерится скриптом или же статическая.
Выделяется не текст, а отдельные слова, затем рассчитываются их частотные свойства и создается информационный "портрет" страницы. По этим словам страницу потом и находят.
P.S. Переношу топик в "Вопросы для новичков".
Vyacheslav Tikhonov, на форуме прочитал, что, чем выше на странице находится код, тем лучше. Получается, это не так?
И если можно, поподробнее о том, как именно выделяются слова и про "портрет".
Существует ли некий рейтинг этих слов, зависящий от того, как эти слова были вами описаны при создании страницы?
Я так понимаю, он есть. Я прав?
Буду премного благодарен...
Когда робот разбирает (а не собирает) страницы, в индекс заносятся координаты (положение) слов в тексте. Такой индекс называется координатным, насколько я знаю.
Следует заметить, что местонахождение слова в тексте лишь один из многих параметров, которые используются в алгоритме поиска.
Это так. Сначала текст разбивается на логические блоки, например, абзацы. Чем выше абзац, тем больший рейтинг получат слова из него.
Это связано с тем, что обычно в начале идет резюме или оглавление всего текста.
Из текста извлекается каждый термин, которому приписывается координатная информация. Например, так:
термин id_абзаца id_предложения id_слова
Затем рассчитываются веса каждого термина по TD*IDF
метрике - учитывается, сколько раз термин встречается в коллекции документов и сколько в данном документе. Затем на этот вес накладываются координатные характеристики (наличие в заголовке, в тексте ссылок и т.д.)
Все это сохраняется в поисковом индексе.
Я так понимаю, он есть. Я прав?
Каждое слово имеет свой вес. Чем чаще оно встречается в коллекции документов, тем этот вес меньше.