Lsi: зачем и почему

samimages
На сайте с 31.05.2009
Offline
403
#31
burunduk:
попробуйте брать первые 10 наиболее значимых (лем/биграм...) с каждого документа из топа,

Для Яндекса может быть грязно, т.к. он ранее считал сайт как отдельную коллекцию и по сути не ранжировал документы отдельно от общего восприятия... в отличии от Гугла.

т.е. прямо релевантных лемм может и не случиться у некоторых представителей ТОП-10, или находиться они будут на статистически не значимых позициях. Хотя может сейчас что-то поменялось в этом отношении.

Опыт как иммунитет — приобретается в муках! Хостинг: экономия до 1300 руб + домен в подарок ( https://clck.ru/XLscf ) / Аудит семантики от 15К [долго] - ЛС
[Удален]
#32
timo-71:
Если в лоб, по кол-ву вхождений, то для "renault kaptur купить", на корпусе - контент документов из 20:

не, для каждого документа отдельно считать, а потом составлять из отобранных корпус

(я топ 50 брал, это примерно 37-48 документов, в зависимости от запроса)

для каждого документа составлял отдельные словари и уже их обрабатывал нормируя вес в словарях в зависимости от позиции документа

самое сложное при составлении словаря n-грамм (я до 5 составлял) , не включать полный бред, например, 2 подряд идущих глагола в биграмме или 3 прилагательных в триграмме и выше, и тому подобное

(и да, я оставлял только глаголы, существительные и прилагательные, остальные части речи убивал, но учитывал их при составлении n-грамм, часть обрывала n-грамму, часть нет)

при условии что внутри n-граммы они отсортированы по алфавиту

P.S. достаточно тяжёлая технология при не очень явных плюсах

[Удален]
#33
samimages:
или находиться они будут на статистически не значимых позициях

ни разу с таким не сталкивался, возможно на нч запросах подобное и проявится

проверять честно лень, т.к. надо хотя бы 5-6 съёмов по каждому запросу, а это примерно 1,5месяца

+ последующая обработка

примерный объём 13 запросов 2,5 месяца съёма

jpg 186940.jpg
yanus
На сайте с 21.01.2009
Offline
349
#34
burunduk:

P.S. достаточно тяжёлая технология при не очень явных плюсах

Все что "глубже" триграмм вообще дает какой-то практический смысл?

[Удален]
#35

yanus, для понимания о чём документ

самое прикольное, хорошо копипаст отслеживает

+ позволяет убивать устоявшиеся обороты

и да сразу выявляет большие фрагменты текста

T7
На сайте с 19.09.2018
Offline
52
#36
samimages:
В Яндексе точно нет... там скорее начиная с ТОП 30... ну, ТОП 20, можно искать интенты, а первая 20-ка сглажена до среднего под ПФ, но если рассчитать корпуса самих представителей ТОП-10, например и сопоставить, то может получиться интересно, а если получится сохранить привязку к хосту

Ну да, как уже говорил, странные штучки дает 2гис, вк а так же, наверное, то что называлось спектр, что намекнули н-граммы (я их реже глазами смотрел, а там "disk_djujmovyj_legkosplavnyj_steppe", 97], ["bachok_bol'shoj_ob'em_omyvatel'", 84) видимо запчасти какие то зашли

привязку к хосту

файл во вложении снят сейчас. Нет проблем их писать. Выше приведенные данные могут отличаться по источникам

чуть торможу, не успеваю, осмысливаю.

-------

если по смыслу

можно искать интенты

то 2гис чаще всего нормальные данные дает, но осмыслить это может только человек. Ну, типа "Рога и копыта", если чел посмотрит, сразу скажет, так ё, они розовых слонов продают в моем городе, а я как раз их и искал.

txt hosts.txt
Devvver
На сайте с 02.07.2008
Offline
635
#37
burunduk:
для каждого документа составлял отдельные словари и уже их обрабатывал нормируя вес в словарях в зависимости от позиции документа

Каким образом формировался текст? Отбирался только текст статьи или весь контент?

Кстати Алексей тоже пробовал обучать на выборке https://alexeytrudov.com/web-marketing/seo/poigralsya-s-word2vec-mashinnoe-obuchenie.html

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://devvver.ru/ ) Мой телеграм канал https://t.me/seobloggers
[Удален]
#38
Devvver:
Каким образом формировался текст? Отбирался только текст статьи или весь контент?

пробовал по разному, брал сохранёнку из яндекса и обрабатывал

только индексируемый текст с анкорами ,индексируемый текст без анкорной составляющей, и весь текст

обрабатывал весь документ, а не только статью со страницы

T7
На сайте с 19.09.2018
Offline
52
#39
Devvver:
Каким образом формировался текст? Отбирался только текст статьи или весь контент?

Кстати Алексей тоже пробовал обучать на выборке https://alexeytrudov.com/web-marketing/seo/poigralsya-s-word2vec-mashinnoe-obuchenie.html
Алексей:
Для примера я спарсил чуть больше тысячи статей о SEO и загрузил получившийся файлик на 15 мегабайт в python-оболочку к оригинальному Word2vec.
Источник: https://alexeytrudov.com/web-marketing/seo/poigralsya-s-word2vec-mashinnoe-obuchenie.html

Это тоже самое, но машинно с шумом. Огрехи парсинга. Пассажи. Пассажи - важно: би-три-граммы, lsi/lda модели оттуда. Тут есть еще проблемы. А так ручками 1000 - или 20-сколько есть лимитов не суть. Пассажи необработанные во вложении, на 00:41

Шум это у меня, а не когда ручками корпус сделать. Когда ручками, исключаются 2 типа ошибок:

1. не возьмешь этот урл

2. аккуратно выберешь контент (хотя не уверен, что это ошибка. Яндекс то тоже это видит)

txt bi.txt
txt ngr.txt
txt lda-lsi.txt
zip a928b005259427cc511531faf316a950.txt.zip
Devvver
На сайте с 02.07.2008
Offline
635
#40

timo-71, да не очистите вы от шума. Только если выбирать вручную. Но это тогда не автоматизируется - если вы хотите для 10К запросов использовать.

Еще одна проблема - нерелевантные статьи.

Еще проблема - алгоритм хорош на статьях, а у вас в примере в выдаче много агрегаторов и мало текста.

burunduk, сейчас работаете? Можете добавить запрос "достопримечательности праги" для сравнения с этим?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий