сборка страниц

G

93

guru

17 февраля 2004, 16:24

580

Возник такой вопрос:

Как поисковики "собирают" страницу из исходного кода? Как они индексируют страницы?

Именно процесс "сборки", каким образом для индексации выделяется именно текст, а не что-то иное?

Учитываются ли ими скрипты?

Кузьменков Андрей

VT

130

Vyacheslav Tikhonov

17 февраля 2004, 19:10

#1

Как поисковики "собирают" страницу из исходного кода? Как они индексируют страницы?

Робот ничего не "собирает", он выкачивает страницу в таком же виде, как она отображается в броузере. При этом не важно, страница генерится скриптом или же статическая.

Именно процесс "сборки", каким образом для индексации выделяется именно текст, а не что-то иное?

Выделяется не текст, а отдельные слова, затем рассчитываются их частотные свойства и создается информационный "портрет" страницы. По этим словам страницу потом и находят.

P.S. Переношу топик в "Вопросы для новичков".

Title, H1, H2 одинаковые Помощь в фильтрации ботов Все вопросы про продвижению

G

93

guru

17 февраля 2004, 22:03

#2

Vyacheslav Tikhonov, на форуме прочитал, что, чем выше на странице находится код, тем лучше. Получается, это не так?

И если можно, поподробнее о том, как именно выделяются слова и про "портрет".

Существует ли некий рейтинг этих слов, зависящий от того, как эти слова были вами описаны при создании страницы?

Я так понимаю, он есть. Я прав?

Буду премного благодарен...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

C

120

Cherny

17 февраля 2004, 23:20

#3

Когда робот разбирает (а не собирает) страницы, в индекс заносятся координаты (положение) слов в тексте. Такой индекс называется координатным, насколько я знаю.

Следует заметить, что местонахождение слова в тексте лишь один из многих параметров, которые используются в алгоритме поиска.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)

Страницы в индексе, но Минфин США разом запретил Оптимизаторы заметили крупные изменения

VT

130

Vyacheslav Tikhonov

18 февраля 2004, 14:08

#4

Vyacheslav Tikhonov, на форуме прочитал, что, чем выше на странице находится код, тем лучше. Получается, это не так?

Это так. Сначала текст разбивается на логические блоки, например, абзацы. Чем выше абзац, тем больший рейтинг получат слова из него.

Это связано с тем, что обычно в начале идет резюме или оглавление всего текста.

И если можно, поподробнее о том, как именно выделяются слова и про "портрет".

Из текста извлекается каждый термин, которому приписывается координатная информация. Например, так:

термин id_абзаца id_предложения id_слова

Затем рассчитываются веса каждого термина по TD*IDF

метрике - учитывается, сколько раз термин встречается в коллекции документов и сколько в данном документе. Затем на этот вес накладываются координатные характеристики (наличие в заголовке, в тексте ссылок и т.д.)

Все это сохраняется в поисковом индексе.

Существует ли некий рейтинг этих слов, зависящий от того, как эти слова были вами описаны при создании страницы?
Я так понимаю, он есть. Я прав?

Каждое слово имеет свой вес. Чем чаще оно встречается в коллекции документов, тем этот вес меньше.

Ключевые слова - теория Яндекс исследовал запросы россиян Вопросы представителю Яндекса

Зачем быть уникальным в мире, где все можно скопировать

VK приобрела 70% в структуре компании-разработчика red_mad_robot