сборка страниц

G
На сайте с 26.11.2003
Offline
93
560

Возник такой вопрос:

Как поисковики "собирают" страницу из исходного кода? Как они индексируют страницы?

Именно процесс "сборки", каким образом для индексации выделяется именно текст, а не что-то иное?

Учитываются ли ими скрипты?

Кузьменков Андрей
VT
На сайте с 27.01.2001
Offline
130
#1
Как поисковики "собирают" страницу из исходного кода? Как они индексируют страницы?

Робот ничего не "собирает", он выкачивает страницу в таком же виде, как она отображается в броузере. При этом не важно, страница генерится скриптом или же статическая.

Именно процесс "сборки", каким образом для индексации выделяется именно текст, а не что-то иное?

Выделяется не текст, а отдельные слова, затем рассчитываются их частотные свойства и создается информационный "портрет" страницы. По этим словам страницу потом и находят.

P.S. Переношу топик в "Вопросы для новичков".

G
На сайте с 26.11.2003
Offline
93
#2

Vyacheslav Tikhonov, на форуме прочитал, что, чем выше на странице находится код, тем лучше. Получается, это не так?

И если можно, поподробнее о том, как именно выделяются слова и про "портрет".

Существует ли некий рейтинг этих слов, зависящий от того, как эти слова были вами описаны при создании страницы?

Я так понимаю, он есть. Я прав?

Буду премного благодарен...

C
На сайте с 19.09.2001
Offline
120
#3

Когда робот разбирает (а не собирает) страницы, в индекс заносятся координаты (положение) слов в тексте. Такой индекс называется координатным, насколько я знаю.

Следует заметить, что местонахождение слова в тексте лишь один из многих параметров, которые используются в алгоритме поиска.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)
VT
На сайте с 27.01.2001
Offline
130
#4
Vyacheslav Tikhonov, на форуме прочитал, что, чем выше на странице находится код, тем лучше. Получается, это не так?

Это так. Сначала текст разбивается на логические блоки, например, абзацы. Чем выше абзац, тем больший рейтинг получат слова из него.

Это связано с тем, что обычно в начале идет резюме или оглавление всего текста.

И если можно, поподробнее о том, как именно выделяются слова и про "портрет".

Из текста извлекается каждый термин, которому приписывается координатная информация. Например, так:

термин id_абзаца id_предложения id_слова

Затем рассчитываются веса каждого термина по TD*IDF

метрике - учитывается, сколько раз термин встречается в коллекции документов и сколько в данном документе. Затем на этот вес накладываются координатные характеристики (наличие в заголовке, в тексте ссылок и т.д.)

Все это сохраняется в поисковом индексе.

Существует ли некий рейтинг этих слов, зависящий от того, как эти слова были вами описаны при создании страницы?
Я так понимаю, он есть. Я прав?

Каждое слово имеет свой вес. Чем чаще оно встречается в коллекции документов, тем этот вес меньше.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий