Ранжирование. Возможно, глупость.

64

Sadie

22 августа 2006, 21:57

2275

Что-то не спится... Поставила воду для тортилини (завтра буду себя ругать по-всякому за ночные приемы пищи)...

Вот что подумала:

Допустим, у поисковой системы есть словарь слов-синонимов.

После приема страницы роботом, какой-нибудь модуль поисковой системы "упростит" полученный текст, сведя его к использующему минимальный набор слов - используя словарь из предыдущего пункта. Дальнейшая работа будет производиться с полученным текстом.

К каждому слову составляются связки слов, используемых с ним: например, "белый снег", "горькая правда", "собирать ягоды", и т.д.

Имея базу данных подобных словосочетаний, полученных методом обработки множества интернетовских страниц, поисковая система будет знать, какие прилагательные используются с какими существительными, а также какие действия применимы к каким объектам (в общем случае, в стандартных текстах).

А теперь, собственно, о самом ранжировании:

Если найденная обычным способом - по ключевым словам - страница содержит большое количество упомянутых выше словесных пар, вероятность того, что там содержится осмысленный текст для пользователя - выше. Следовательно, такой странице можно дать бонус при ранжировании результатов поиска. Аналогично, страница, содержащая уникальные для Сети связки "объект-свойство" или "объект-действие" скорее всего является хитрым дорвеем. Творчество экспериментаторов от русской литературы в расчет не берем.

Простые дорвеи, содержащие набор ключевых слов, чуть разбавленных случайным содержанием, уйдут сразу.

Насколько я понимаю принцип работы дорогенераторов на основе цепей Маркова, там очень высока вероятность получить именно бессмысленные словосочетания. Таким образом они тоже должны уйти ниже в результатах поиска.

Обычный текст при подобном подходе вряд-ли пострадает. По идее, даже "пАдонкавские" словарные нововведения достаточно быстро расходятся по Рунету, чтобы быстро начинать ранжироваться правильно.

Ваше мнение? Глупость написала и подобная схема не сработает? Или изобрела велосипед?

Кажется, подобного еще нигде не видела...

Новости без комплексов (http://www.kompleksov.net/) | ЖЖ (http://sad-sadie.livejournal.com/)

271

Тарас Гуща

22 августа 2006, 22:10

#1

1. Вы сами когда-то видели дорвей? Думали из чего он состоит? Откуда по вашему парсятся слова? Почему все думают, что дорогены - это бессмысленный текст и цепи Маркова? Вы бы приплели еще уравнение Колмогарова сюда :-) Люди, читайте книги...

2. Влияние ассоциативных запросов на ранжирование очень сомнительно... А вот влияние на количество трафика - однозначно положительное...

"EasyConf.Bz" - товарная конференция №1 в Украине - 20.02.2020 - Киев (https://easyconf.bz) Seo.Ua - Создание и продвижение сайтов (http://www.seo.ua) с гарантиями! Ура! Трастовые ссылки/статьи на 500+ СДЛах от 1$! (/ru/forum/847121)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

404

Segey

23 августа 2006, 00:04

#2

Sadie:
После приема страницы роботом, какой-нибудь модуль поисковой системы "упростит" полученный текст, сведя его к использующему минимальный набор слов - используя словарь из предыдущего пункта. Дальнейшая работа будет производиться с полученным текстом.
К каждому слову составляются связки слов, используемых с ним: например, "белый снег", "горькая правда", "собирать ягоды", и т.д.
Имея базу данных подобных словосочетаний, полученных методом обработки множества интернетовских страниц, поисковая система будет знать, какие прилагательные используются с какими существительными, а также какие действия применимы к каким объектам (в общем случае, в стандартных текстах).

Я тоже сплю и вижу, когда компьютер научиться читать :(

Но ему нужно научиться именно читать, чтобы так сказать "понимать", что он читает. С разговорно речью проблем нет, а вот профессиональные тексты, там ведь все подругому. По мойму это будут слабые потуги пока не придумают и не пустят в массы Al, который прочитает текст и поймет его смысл, а также найдет ошибки...

Вот только мне кажется когда он научится читать, дорвейщики научатся писать, в смысле доргены. И борьба продолжится дальше :) Это как добро и зло, инь и янь, черное и белое. Такие разные и всегда вместе :)

gutako,

А что почитать? Дайте ссылку?

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

79

Pike

23 августа 2006, 01:08

#3

Sadie

Вашим методом все топы будут забиты дорвеями.

P.S. Варите пельмени. Тортелини - это не наш метод

free hosting (http://rahost.com)

281

pro-maker

23 августа 2006, 03:34

#4

Sadie:
Если найденная обычным способом - по ключевым словам - страница содержит большое количество упомянутых выше словесных пар, вероятность того, что там содержится осмысленный текст для пользователя - выше. Следовательно, такой странице можно дать бонус при ранжировании результатов поиска. Аналогично, страница, содержащая уникальные для Сети связки "объект-свойство" или "объект-действие" скорее всего является хитрым дорвеем. Творчество экспериментаторов от русской литературы в расчет не берем.

Sadie, анализ осмысленности и тематичности доступен Яндексу. Но сомнительно, что такие технологии работают в поиске, поскольку не верится в достижение адекватных результатов на лету под большое разнообразие запросов.

Но есть другое применение для анализа осмысленности - тексты ссылок.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

34

snoopckuu

23 августа 2006, 04:58

#5

Sadie, то о чём вы сейчас написали это называется морфология на уровне стэмминга, только она работает не для словосочетаний а на уровне 1 слова, но этот поиск будет на уровне асоциаций, только во-первых это не так просто реализовать физически, так как это будет выжирать ресурсов сервера в x-раз больше - но это ещё пол беды, вы не подумали что когда поисковая машина будет индексировать дорвей то стэммер соберёт и их тупые словосочетания в итоге будут восприниты как нормальные - идея интересная, но полностью утопийная, можно гораздо проще бороться с дорвеями.

Разработчик поисковых систем и алгоритмов. Я умнее яндекса. Мой синонимайзер. (http://se.o0o.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

271

Тарас Гуща

23 августа 2006, 07:11

#6

Segey, вы шутите??? Вот мне интересно кто-то хоть из дорвейщиков знает ваще что такое цепи Маркова или уравнение Колмогарова??? Научились парочке слов или кидаются ими всюду, мол, у меня дорген на цепях Маркова, я крут :-)

Segey, что читать? Ну вот хотя бы "Справочник по теории автоматического управления под редакцией А.А.Красовского" - 1987г. Это первое, что попалось мне на глаза на моих полках... Страницы 157-158, 207-208...

Мне также интересно знает ли дорвейщик, который употребляет термин

"цепи Маркова", чем они эти самые "цепи" отличаются от "последовательности Маркова"???

Что у нас за привычки в бывшем совке...Мне напоминает это анекдот: я знаю карате, конг-фу, ушу и много других страшных слов :-)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

404

Segey

23 августа 2006, 07:48

#7

gutako,

А я думал в самом деле знают :) А программы по этим принципам работают или как лодки "Титаник" в деревне?

M

94

motorhead

23 августа 2006, 08:02

#8

pro-maker:
Sadie, анализ осмысленности и тематичности доступен Яндексу.

на счёт тематичности бесспорно соглашусь, а вот по поводу осмысленности... люди то друг друга иногда не понимают, а уж поисковая машина тем более, к тому же синтаксически правильный текст в дорвее составить вообще не проблема

404

Segey

23 августа 2006, 08:09

#9

motorhead:
а вот по поводу осмысленности...

Вполне можно, если смотреть на часть речи слов (я про ссылки). Если в ней 5 существительных и глаго "купить", то явно не похоже на нормальное предложение

271

Тарас Гуща

23 августа 2006, 08:12

#10

Segey, есть действительно те, кто знают... Это как и у сеошников :-) Есть люди, которые знают, что такое тИЦ и PR, а есть те, кто оптимизируют без единого понятия...

Помню ко мне на собеседование пришел "сеошник"... я спршиваю чем отличается ИЦ от тИЦ? Молчание... Какие схемы постоения сеосеток вы знаете?? Молчание... Что вы знаете? ну, надо написать <b>, <h1>... :-)

Есть портфолио? Есть... Покажите.... Смотрю и думаю "кажется мои лыжи по асфальту не едут..." На первых позициях запросы, которые не разу даже за месяц не запрашивались...Человек очень удивился, когда увидел эдстат рамблера и статистику по украинским словам в эдсерче...

P.S. Это все к тому, что везде хватает спецов, и гномиков... :-)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Курс биткоина превысил $50 тысяч