- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
фигня какая-то
смотрю проиндексированность, например, site.info, в результатах показывается site.ru, site.su, site.biz, site.ucoz.ru
поддерживаю.
та же чушь в выдаче индексации.
сперва обрадовался, увидав кучу проиндексироанных страниц нового сайта, потом пригляделся и плюнул...
косяк вышел, однако...(
Челябинские боты настолько суровые, что не просто индексируют сайт, а просто высасывают его содержимое!
Челябинские боты настолько суровые, что не просто индексируют сайт, а просто высасывают его содержимое!
А московские боты - обленились и ожирели... никуда не спешат, могут за 1 заход только треть сайта проиндексить, могут и меньше... по крайней мере у меня так. ;)
А московские боты - обленились и ожирели... никуда не спешат, могут за 1 заход только треть сайта проиндексить, могут и меньше... по крайней мере у меня так. ;)
Весьма жизненное наблюдение, уважаемый.
Я только вчера жаловался недовольным тоном на одного московского Я-бота /каламбурчег!/ - была куча мёртвых страниц в индексации. А сегодня он прочёл мои слова и пришёл все переиндексировал)) Страниц теперь совсем мало поднялось (где-то процентов 10-11), зато почти все дельные. Теперь ожидаю, когда остальные поднимет.
Эй, Я-бот! просим в гости, уже налито!)
ХМ... Так не в тему, а вы не думали, что иногда оно и в плюс, что неграмотный сайт не индексируетсяя полностью?
фигня какая-то
смотрю проиндексированность, например, site.info, в результатах показывается site.ru, site.su, site.biz, site.ucoz.ru
У меня практически на всех сайтах такая же фигня. :)
сайт
Челябинские сайты настолько суровые, что посетителям приходится кликать молотком по объявлениям адсенс!
Эй, Я-бот! просим в гости, уже налито!
Челябинские боты настолько суровые, что прихотят только на сайты по спиртным напиткам!
Вообще мое мнение по вопросу индексации "неоднозначно"..
В кавычках, потому что это не индексация, а псевдоиндексация какая-то.
Последнее время (а на самом деле уже достаточно давно) создаётся впечатление, что ресурсы Яндекса не справляются с обновлением индексной базы.
Выдача строится на основе списка сайтов, позиционный рейтинг которых считается по сайтам из разных кусков индекса - очень разной степени обновлённости. О какой вообще релевантности тогда может идти речь? Пользователь видит в титле и сниппете одно, идёт по ссылке - видит совсем другое. И на это накалываешься постоянно.
Делаю эксперимент - меняю титл главной страницы (титлы выводятся в виде ссылок в результатах поиска, потому легко заметить, когда же сайт в базе наконец обновлён) - проходит неделя, другая, индексирующий робот уже десять раз забирает главную страницу, а титл в выдаче всё тот же и дата последнего обновления страницы - более месячной давности.
Но это ворчливая присказка. Основная тема статьи - морфологический поиск Яндекса.
Перлы морфологии Яндекса тут уже как-то были приведены (прошу прощения) - на подобное, кстати, мною уже давно было указано в ответ на феерический пост Амилющенко в Я.блог (жаль, что комментарии там скринятся).
Неужели у Яндекса нет профессиональных лингвистов, которые бы объяснили его специалистам что такое словоформа и морфологическая форма слова - что слова "метать" и "меч" не имеют общей морфологической формы - просто потому, что слово морфологический состоит из двух частей "морфо" и "логический"? Так нет же - как мы видим по приведённой цитате из блога Яндекса выше - его сотрудники вполне понимают то, что склейка, проведённая как "минуты - минут - миновать - минет", является следствием общих не морфологических форм, а следствием общих омоформ.
Так тогда и надо называть вещи своими именами: Яндекс имеет не морфологический поиск, а оморфический. В отличие от Гугля, кстати.
Меня как-то пытались убедить, что, мол, алгоритмически невозможно корректно построить морфологический поиск и отфильтровать из него оморфические результаты. Пример недавно введённой морфологии Гугля это, однако, опровергает. Но, возможно, сотрудникам Яндекса соответсвующие алгоритмы не под силу. Что ж, попробуем им помочь.
Допустим, есть слова А с морфоформами (А1, А2, А3, А4, В, А5...) и Б с морфоформами (Б1, Б2, Б3, В, Б5...) ,
имеющие общую омоформу В.
Как строит "морфологическую" выдачу Яндекс?
Пользователь набирает в запросе А2, а в результате, из-за омоформы В получает выдачу Б1, А1, Б2
и т.д..
Т.о. супер-пупер алгоритм морфологического поиска Яндекса скорее всего следующий:
1. получили запрос n=А2 ->
2. нашли все словоформы А2: А, А1, А2, А3, А4, В, А5... - сразу строится первичная выдача из 1..m результатов для каждой найденной словоформы согласно её весу, if (m=1000 или (m< 1000 и индекс исчерпан - см. пояснение к п.3.)) - then show results (аналогично же при построении выдачи для словосочетаний - см. ниже - всё то же, только для каждого слова в словосочетании) -> else ->
3. if m< 1000 (и индекс не исчерпан (тут - в п.2., м.б., как-то ещё задаётся норма для веса вхождения слов в выдачу)) - then для каждого А1, А2, А3, А4, В, А5... повторяем п.1. n=(А1, А2, А3, А4, В, А5...) -> п.2. ->
4. => для В получили Б, Б1, Б2, Б3, Б5 (итак, очевидно, что все омоформы найдены! :) ) -> п.2.=п.5. ->
5. теперь из А, А1, А2, А3, А4, В, А5..., Б, Б1, Б2, Б3, Б5... строим всю выдачу... enjoy!
(так же на п.5. получаем показываемый пользователю результат поиска страниц/сайтов - столько-то)
Закономерен недоумённый вопрос - зачем Яндекс делает п.3.?
Ответ неочевиден, но довольно прост.
Первая подсказка.
Как видно из примера выше (пример не слишком красив, но то же можно посмотреть и на "лучшие мечи" и т.п.)- если запрос состоит из двух и более слов, то Яндекс сначала выковыривает словоформы каждого слова запроса в отдельности, а потом ищет их вхождения, причём строит выдачу так, чтобы слова (точнее, уже их словоформы) в запросе стояли сначала максимально близко.
Вторая подсказка.
Если вы наберёте просто слово "минуты" - вы не получите в выдаче "минет". Аналогично с "мечи" не получите "метан", "метал" и т.п. (что, впрочем, неверно для Я.Маркета...).
А вот если вы наберёте уже запрос из двух слов ("отличные минуты", "лучшие мечи"), то получите результаты с омоформами.
Т.о. (см. первую подсказку) п.3. - является избыточным следствием алгоритма поиска вхождений для словосочетаний: почему? потому что поисковый движок не шибко умный и не знает, что имеет ввиду пользователь, задавая запрос "лучшие мечи" - то ли он ищет лучшие мечи, то ли он ищёт текст, где кто-то лучше мечет (икру, ага... - "мечи игру!"), то ли ищут какой-то ещё метан, который лучше... чужие души смысл запроса - загадка для робота.
Потому он и не органичивается п.2., который не отличает существительное "мечи" и глагольную форму "мечи" от "метать" - ведь движок не знает, где глагол, а где существительное, потому и ищет именно все омоформы и идёт в п.3..
Когда же запрос состоит из одного слова, вся выдача уже забита в п.2. найденными результатами и необходимости в п.3. нет. Как видите, я полагаю, что выдача Яндекса - это не более порядка 1000 результатов - Яндекс, как и Гугль, и дорогие друзья, если вы до сюда дочитали то я могу вас смело послать нахуй, но надеюсь этого никто не заметит, насколько могу судить по своим тестам, так же ограничивает выдачу числом в 1000 результатов - у Гугля это цифра официальная (не путать число найденных документов с числом пунктов списка выдачи результатов в браузер).
Итак, закономерно резюме (см. первую подсказку) - а не проще ли и правильнее сначала искать точные вхождения по словосочетанию (что, судя по всему, делает Гугль)?
Мои предположения, конечно, только предположения, а не претензия на знание сокровенных тайн :)
Кстати, Белорусские программеры настолько суровые, что пьют горчицу вместо кофе (на собственном примере)