Недостстки яндекса 2

12
G00DMAN
На сайте с 19.04.2008
Offline
122
#11
mrFatCat:
В ветке купи в первых 500 результатах (10 страниц) всего 2 ключа с точным вхождением слова "купи": "купи продай" и "купи бел". А еще месяц назад точных вхождений было больше половины. Лень поднимать бекап базы, чтобы посмотреть точную цифру.

Ну если Вам лень понять как работает вордстат, то почему в этом виноват Яндекс? В ветке !купи все с точным вхождением слова "купи. :)

mrFatCat:
Я спрашиваю "водки" и иду вниз по ветке. И не нахожу "купи водки", а нахожу "купе водки".
В жизни не поверю, чтобы такой запрос набирали чаще... Готов поверить, что "красно село" вместо "красное село" так часто набирали из Украины мовоязычные искатели, что кривой запрос вытеснил грамматически правильный. Но на "купе водки" моя доверчивость истощилась.

Если Вы во что-то не хотите верить, то опять же, при чем тут Яндекс? Видимо словосочетание "купе водка" сейчас популярнее "купи водки", которое не спрашивает никто. Из чего никак не следует, что "купи" и "купе" - одно и то же для Яндекса. :)

mrFatCat:
Нет, в самом деле, очень много ключей в вордстате где бьет по глазам недостающая последняя буква: "бело поле" вместо "белое поле", "нова газета" вместо "новая газета".

Ну если так задают вопросы, то в чем недостаток Яндекса? :)

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
[Удален]
#12
G00DMAN:
Из чего никак не следует, что "купи" и "купе" - одно и то же для Яндекса.

ОК, про "купе" убедили. Попробуйте переубедить со словом "купель".

По аналогии с понятием понятием семантической широты слова, я сейчас работаю с семантической широтой ветвей вордстата: соотношением количества известных словосочетаний (длины ветви) к частоте запросов ветви. Чем ниже частота запроса и чем длиннее ветвь - тем выше семантическая широта. Мониторю ветви вордстата длиной свыше 20 строк. И буквально последние 2-3 недели обнаружено появление огромного количества новых ветвей, и все они со "странными" словами. И все они в зоне относительно низкой семантической широты, причем ветви длинные, но и частоты высокие.

[Удален]
#13
G00DMAN:

Ну если так задают вопросы, то в чем недостаток Яндекса? :)

Видимо в том, что работает не так, как кому то хочется🚬

[Удален]
#14

Нет, в самом деле полная фигня в вордстате. Появилось бешеное количество дублей с перестановкой слов. Причем я понимаю, с трехсловниками это может быть оправдано: "жопа с ручкой" не равно "ручка с жопой". Но двухсловники тоже зачем-то задублировались, и последние 3 недели "купить мобильник" и "мобильник купить" (примеры от фонаря) тоже иногда стали считаться разными ключами и давать разные ветки.

Мне кажется очевидным, что яндекс меняет алгоритм проверки текстов; потому-то и текстовые апы стали так редки. Интересно, как это отразится на выдаче; боюсь, что выдача стала хуже: семантика вордстата стала совсем машинной, бездумно-машинной. Было-то плохо, а стало еще хуже.

SR
На сайте с 11.09.2008
Offline
53
#15

кг/ам

еще раз прочитай все что написал товарисчь Гудман

Чичи - Гага
[Удален]
#16
ShevaRNaDZe:
все что написал товарисчь Гудман

Мы не противоречим друг с другом с товарищем Гудманом.

Но о чем умалчивает великий и ужасный волшебник Изумрудного города - это очевидность, что вордстат яндекса - это еще и кеши поисковой выдачи.

Когда кешируется не по самой популярной форме слова, а по "обрезку" - начнутся баги.

К примеру, из увиденного только что: "голы" - слово, больше употребительное в футбольно-хоккейной тематике, а не краткая форма от "голые". Ждем на футбольных сайтах посетителей с поиска "голых девочек"?

G00DMAN
На сайте с 19.04.2008
Offline
122
#17
mrFatCat:
ОК, про "купе" убедили. Попробуйте переубедить со словом "купель".

Мистем на "купель" дает варианты "купель" и "купля". Может это и ошибка, а может и хитрее все, я не словесник, не могу сходу понять.

mrFatCat:
По аналогии с понятием понятием семантической широты слова, я сейчас работаю с семантической широтой ветвей вордстата: соотношением количества известных словосочетаний (длины ветви) к частоте запросов ветви. Чем ниже частота запроса и чем длиннее ветвь - тем выше семантическая широта. Мониторю ветви вордстата длиной свыше 20 строк. И буквально последние 2-3 недели обнаружено появление огромного количества новых ветвей, и все они со "странными" словами. И все они в зоне относительно низкой семантической широты, причем ветви длинные, но и частоты высокие.

Видимо пытаются как-то модернизировать вордстат, но это же не недостаток Яндекса. ;)

mrFatCat:
Нет, в самом деле полная фигня в вордстате. Появилось бешеное количество дублей с перестановкой слов. Причем я понимаю, с трехсловниками это может быть оправдано: "жопа с ручкой" не равно "ручка с жопой". Но двухсловники тоже зачем-то задублировались, и последние 3 недели "купить мобильник" и "мобильник купить" (примеры от фонаря) тоже иногда стали считаться разными ключами и давать разные ветки.

В двухсловниках "жопа ручки" и "ручка жопы" также оправдано. :D

mrFatCat:
Мне кажется очевидным, что яндекс меняет алгоритм проверки текстов; потому-то и текстовые апы стали так редки. Интересно, как это отразится на выдаче; боюсь, что выдача стала хуже: семантика вордстата стала совсем машинной, бездумно-машинной. Было-то плохо, а стало еще хуже.

При чем тут проверка текстов и апдейты? Вордстат - это сервис по статистике запросов, к ранжированию в поиске вообще прямого отношения не имеющий.

mrFatCat:
очевидность, что вордстат яндекса - это еще и кеши поисковой выдачи.

Это как? 😮

mrFatCat:
Когда кешируется не по самой популярной форме слова, а по "обрезку" - начнутся баги.
К примеру, из увиденного только что: "голы" - слово, больше употребительное в футбольно-хоккейной тематике, а не краткая форма от "голые". Ждем на футбольных сайтах посетителей с поиска "голых девочек"?

А что кешируется по форме слова? Что это за кеш такой?

"Голы" больше употребительно в футболе, но и краткая форма имеет место быть. Отличный пример, кстати, ведь алгоритму на самом деле не очевидно, что делать с фразой "голы голы". Это или футбольный спам, или что-то про какие-то голые голы, алгоритмически задача из набора смертельных. Я обычно привожу аналогичный пример - "дубай дубай". Это два раза эмират, или же этот эмират нужно дубать? :D

[Удален]
#18
G00DMAN:
Это как?

Это немножко внимательности и логики.

Вводим заведомо неизвестный поисковке текст запроса - что-нибудь зубодробительное из десятка слов.

В гугле видим увеличение времени генерации страницы на порядок, и гугл старается дать в снипеты по всем словам запроса.

У яндекса никакогй разницы в скоросте, и часть слов запроса напрчь отсутствуют в снипетах.

А дальше включаем логическое мышление. Что, яндекс втихаря не учел в поиске часть слов запроса? Ох, не верю. Но проверяю: беру эту же зубодробительную фразу в кавычки - есть прирост времени генерации страницы! На порядок возрастает.

Если время поиска по зубодробительной фразе и по короткому ключу из вордстата одинаково - кроме кеша ничем такое быстродействие не объяснить.

[Удален]
#19

Гы!

Даже мову изуродовали.

Ладно, я привык к изобилию в вордстате "малЕнька девочка" и прочим мовизмам. Но вчера появилось новое слово: яндекс решил, что у слова "марка" есть мужской род: "марк".

Гы-гы-гы!

mrFatCat добавил 12.10.2010 в 15:20

Впрочем, зря я взгоношился. Чудеса с родами и падежами у яндекса не вчера появились. Средний род от слова "мир" - "мирО" - уже так глаза намозолил, что я, устав удалять вручную, добавил его в список стоп-слов.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий