Учет словоформ, падежей и проч. в контенте и анкорах

12
MASe
На сайте с 17.09.2002
Offline
219
2137

вот чем озаботился...

наблюдаю интересную картину по проекту (не хочу бросать урлы даже в личку, сорри) с продвижением одного из сайтов...

попробую обрисовать на схожем примере....

1) допустим, раскручиваемый запроса - "ноги" (множественное число)

2) ссылок на сайт понаставлено немеренно... соответсвенно, анкоров генерировалось очень много...

3) что наблюдаю в анкорах:

  • "купить ноги", "продать ноги", "лучшие ноги" (и т.д.... смысл в том, что в данном случае анкор "правильный")
  • интереснее картина: "ботинок для левой ноги", "болячка правой ноги" (и т.д.... смысл в том, что в данном случае анкор - родительный падеж, а в данном примере и по ударению отличающийся, т.е. "неправильный")
  • еще интереснее: "фотогораф положил сумку у треноги и начал фотографировать модели", "многие люди не довольны поисковым алгоритмом Яндекс" (и т.д.... смысл в том, что в данном случае анкор вообще "пиратский", и содержится в части другого слова)

Собственно вопрос (вернее толчок к дискуссии на эту тему) - сейчас, судя по результатам анализируемого сайта, все проходит очень хорошо. Однако с точки зрения алгоритма - это не то что "не правильно", но и в некоторых случаях откровенный обман и спам...

У кого какие наблюдения по подобным вещам... Есть ли перспектива грамотного учета словоформ... Как это возможно с технической точки зрения

Only God Can Judge Me... Nobody Else... Дрезна (http://www.drezna.ru/) Помощники: Sape (http://www.sape.ru/r.167724536c.php)
TheEye
На сайте с 29.11.2006
Offline
104
#1
MASe:
У кого какие наблюдения по подобным вещам... Есть ли перспектива грамотного учета словоформ... Как это возможно с технической точки зрения

Технически не получится заставить программу определить ударение слова. Теоретически, определить разницу между "лучшие ноги" и "болячка ноги", можно при учете окружающего текста, НО...

этого текста, который может указывать на переваваемый смысл слова, может быть очень и очень много. Таким образом, пока компьютер не научится "мыслить смыслами" (ИИ например :) ), то ИМХО - такая проблема будет по любому.

____________________________________________
sander
На сайте с 02.07.2004
Offline
114
#2

MASe, хорошая тема )

насколько сталкивался с подобными случаями:

- ударения для Яндекса роли не играют, более значимо вхождение в анкор нужного текста (в данном случае "ноги")

- падежи для подобных слов он слабо понимает в большинстве случаев

пример (иллюстрирующий вышесказанное):

запрос "Машина машина" (Машина - принадлежность автомобиля девушке по имени Маша)

http://www.yandex.ru/yandsearch?text=%CC%E0%F8%E8%ED%E0+%EC%E0%F8%E8%ED%E0

MASe
На сайте с 17.09.2002
Offline
219
#3
sander:
запрос "Машина машина" (Машина - принадлежность автомобиля девушке по имени Маша)
http://www.yandex.ru/yandsearch?text=%CC%E0%F8%E8%ED%E0+%EC%E0%F8%E8%ED%E0

угу... такое вообще верх виртуозности ;-)

блин... такой креатив можно из "подгонов" таких развить...

M
На сайте с 27.02.2007
Offline
23
#4

Тут много интересностей может быть, на вскидку вспомнил еще интересный случай с фразой "дело моряка" (как-то сами яндексоиды приводили в пример), по которому выдается фраза "день моряка" из-за того, что алгоритм считает, что оба слова - формы глагола "деть" :)

Покупаю ссылки тут (http://www.sape.ru/r.62e691948a.php)
kikimor
На сайте с 22.09.2005
Offline
124
#5
MASe:
вот чем озаботился...
наблюдаю интересную картину по проекту (не хочу бросать урлы даже в личку, сорри) с продвижением одного из сайтов...

  • еще интереснее: "фотогораф положил сумку у треноги и начал фотографировать модели", "многие люди не довольны поисковым алгоритмом Яндекс" (и т.д.... смысл в том, что в данном случае анкор вообще "пиратский", и содержится в части другого слова)

  • Вот этот вариант не проходит. Яндекс учитывает формы существительного и падежи глаголов, но слово считается вместе с предлогами и начало слова никогда не отбрасывается. То есть ноги и многие разные слова. С ударениями фиг его знает - может ли алгоритм яндекса учитывать смысл фразы или выражения, чтобы определить смысл каждого слова и соответсвенно его проиндексировать? Например - "Маши людям" "У Маши есть каша".

    Каширин
    На сайте с 03.01.2004
    Offline
    1018
    #6
    kikimor:
    "Маши людям"

    1. Что делай?

    2. Кто - людям?

    MASe
    На сайте с 17.09.2002
    Offline
    219
    #7
    kikimor:
    Вот этот вариант не проходит. Яндекс учитывает формы существительного и падежи глаголов, но слово считается вместе с предлогами и начало слова никогда не отбрасывается. То есть ноги и многие разные слова. С ударениями фиг его знает - может ли алгоритм яндекса учитывать смысл фразы или выражения, чтобы определить смысл каждого слова и соответсвенно его проиндексировать? Например - "Маши людям" "У Маши есть каша".

    слова то разные, только в том примере в слово мНОГИе - это "м<a href="site.ru">ноги</a>е" - а тут, имхо, яндекс посмотрит на то, что между тегами <a> в ссылке... иными словами на анкор

    MASe
    На сайте с 17.09.2002
    Offline
    219
    #8
    Каширин:
    1. Что делай?
    2. Кто - людям?

    тут пример с машиной чуть выше больше показателен...

    при раскрутке слова МАШИНА (автомобомиль) можно ставить анкоры вида "машина авто" (авто Маши)... сдобрить еще фоткой Маши - и никто не подкопается... ;-)...

    kikimor
    На сайте с 22.09.2005
    Offline
    124
    #9
    MASe:
    слова то разные, только в том примере в слово мНОГИе - это "м<a href="site.ru">ноги</a>е" - а тут, имхо, яндекс посмотрит на то, что между тегами <a> в ссылке... иными словами на анкор

    Ну с анкором, таки да, слово будет распознаваться как ноги. Но это уже :) изврат какой-то.

    The end
    На сайте с 23.11.2004
    Offline
    138
    #10
    MASe:
    Собственно вопрос (вернее толчок к дискуссии на эту тему) - сейчас, судя по результатам анализируемого сайта, все проходит очень хорошо. Однако с точки зрения алгоритма - это не то что "не правильно", но и в некоторых случаях откровенный обман и спам...
    У кого какие наблюдения по подобным вещам... Есть ли перспектива грамотного учета словоформ... Как это возможно с технической точки зрения

    Тоже недавно задавался такой мыслью.

    Не особо свежее, но, так сказать, для затравки дискусси:

    ...стоит упомянуть о процедуре вычисления неявных контекстных ограничений, применяемой в распределенной версии поиска Яндекса. В этом случае на серверах «переднего края» [6] производится синтаксический разбор запроса на основе ATN-грамматики [7], адаптированной к свободному порядку слов русского языка. С учетом рваного «телеграфного» стиля в естественно-языковых фрагментах запросов выявляются несколько видов синтаксической связей (притяжание, перечисление, зависимости цели и места, счетные конструкции и др.) и устанавливаются эмпирически подобранные контекстные ограничения.
    Singular Advertising (http://www.singular.by/).
    12

    Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий