Тематика документа

Dervish
На сайте с 11.05.2005
Offline
186
#21

Каширин, кое-какие детали алгоритма вроде как описаны на сайте Яндекса

Пингвин под микроскопом. (http://ac-u.ru/arts/pingvin-pod-mikroskopom/) Особенности продвижения Интернет-магазинов. (http://ac-u.ru/arts/osobennosti-prodvizhenija-internet-magazinov-bytovojj-ili-kompjuternojj-tekhniki-s-interesnymi-primerami-i-zabavnymi-kartinkami/) Копирайтинг. Качественно. (/ru/forum/725909)
ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#22
psu:
прошу прощения, не совсем понял, как определить для фразы тематику понятно ("зайти в Я.Директ - Дать объявление - ..."), но если речь идет о странице (сайте), то как быть с ним? дергать пословно на соответствия тематики,а потом по какой-то схеме интрепретировать?

Вот тут можно почитать у Бойцова Леонида:

http://itman.narod.ru/

Благо, товарищ, вроде в Яндексе работал до ноября 2005 года и как раз по этой проблеме..

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.
pro-maker
На сайте с 08.12.2003
Offline
281
#23
ХренРедькиНеСлаще:
Вот тут можно почитать у Бойцова Леонида:
http://itman.narod.ru/

Хрнс, у itman-а о нечетком поиске. Похожесть, конечно, можно по-разному понимать, но тематическая близость, наверное, ближе к оценке пересечения с лексикой уровня рубрикатора. Не покажете конкретную ссылку, где у itman-а о тематической близости?

I
На сайте с 26.05.2001
Offline
64
#24

О тематической близости у Itman нет. Тематическая близость - это, все-таки, классификация. И к LSI: Latent Semantic Indexing

pro-maker:
Хрнс, у itman-а о нечетком поиске. Похожесть, конечно, можно по-разному понимать, но тематическая близость, наверное, ближе к оценке пересечения с лексикой уровня рубрикатора. Не покажете конкретную ссылку, где у itman-а о тематической близости?
Приходите завтра, завтра будет! (http://itman666.livejournal.com)
ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#25
pro-maker:
Хрнс, у itman-а о нечетком поиске. Похожесть, конечно, можно по-разному понимать, но тематическая близость, наверное, ближе к оценке пересечения с лексикой уровня рубрикатора
itman:
О тематической близости у Itman нет. Тематическая близость - это, все-таки, классификация

Возможно я неправильно выразился. Но мне лично при словах похожих "яндекс стал учитывать тематические ссылки" вначале на ум не классификатор приходит, а ПОХОЖЕСТЬ страниц донора и больного.

Кстати не вижу больших проблем введения классификатора, как расставляющего границы между похожими страницами, а вот для адекватного поиска похожих страниц проблем хоть отбавляй (это на мой взгляд).

Берем заданный документ, ищем похожие документы в Яндекс каталоге, упорядочиваем по "похожести", группируем по сайтам, и выдаем тематику первого в выдаче. Это если по топорному. Не по топорному тоже можно, если подумать

Например, по максимуму скалярного произведения на "тематические орты". Методов довольно много.

I
На сайте с 26.05.2001
Offline
64
#26

Да нет, скорее всего, Яндекс на ходу классифицирует страничку, приписывая ее к нескольким категориям, а потом смотри, а есть ли среди этих категория пересечения. Если есть, то линки между страничками учитываются.

ХренРедькиНеСлаще:
...

Например, по максимуму скалярного произведения на "тематические орты". Методов довольно много.
pelvis
На сайте с 01.09.2005
Offline
345
#27

Самый простой (и наверное правильный) вывод такой - использовать слова из оглавления лестниицы для текста на странице, я правильно понял Вас, Виталий?

ps: "Создание сайта" не показатель, точнее все равно не прокатит.

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)
pro-maker
На сайте с 08.12.2003
Offline
281
#28
itman:
Тематическая близость - это, все-таки, классификация. И к LSI: Latent Semantic Indexing

itman, проблемы с русским, а с английским и совсем завал. :)

Смысловые индексы - это какие-то параметры, идентифицирующие набор смыслов слов документа, и соответствующий им (смыслам) иерархический рубрикатор?

pelvis, в качестве первого приближения. iГоша выше хорошо объяснил. :)

iГоша:
Ну да, сначала проверяем как автомат в директе определяет тематику по заданным ключевым словам, а потом делаем страницу с учетом полученного результата.
I
На сайте с 26.05.2001
Offline
64
#29

LSI - это модный способ определения степени связности ключевых слов в количественном выражении. Это некоторый аналог корреляции терминов. Или степень синонимии. Используя эти данные, можно считать тематическую близость документов.

pro-maker:
itman, проблемы с русским, а с английским и совсем завал. :)

Смысловые индексы - это какие-то параметры, идентифицирующие набор смыслов слов документа, и соответствующий им (смыслам) иерархический рубрикатор?

pelvis, в качестве первого приближения. :) iГоша хорошо выразил. :)
pro-maker
На сайте с 08.12.2003
Offline
281
#30
itman:
LSI - это модный способ определения степени связности ключевых слов в количественном выражении. Это некоторый аналог корреляции терминов. Или степень синонимии. Используя эти данные, можно считать тематическую близость документов.

А для оценки близости по типам лексики LSI также используется?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий