G00DMAN

Рейтинг

122

Регистрация

19.04.2008

А что мешает Яндексу создать свою биржу ссылок?

2 ноября 2010, 16:21

юни:
G00DMAN, сейчас ноябрь, барин. Не апрель.

Именно. Время Ашмановской конфы, т.е. больших терок. :)

Seyon:
И кто ведет с ними такую работу?

Да есть приколисты. :)

Поиск будущего: у каждого — он свой - продолжение...

2 ноября 2010, 16:15

vitali_y:
ну это те фичи что нужны мне - если бы я писал большой поисковик - их бы я реализовал в первую очередь. а что бы вы реализовали в первую очередь? что для вас новая идея и поиск будущего?

Да новых идей можно много напридумывать, только не очень интересно это. Для меня поиск будущего связан скорее с нахождением ответов на сложные вопросы. Т.е. переколдовка сложного запроса (пусть даже и написанного по строгим правилам) должна рулить, на уровне, близком к ИИ. Ответы на большинство вопросов в сети есть, осталось только научиться их находить. :)

vitali_y:
тут я не рассуждаю о бизнесе google - я говорю о количестве пользователей google как поисковика. найти новых пользователей blekko будет трудно - хотя теги /people и /date - рулят однозначно.

Ну так количество пользователей гугла сделал бизнес, а не качество поиска. По качеству различия сегодня у поисковиков не критичны. Клиентов придется отнимать у всех, проще всего наверное отнять их у альтернативных поисковиков, которые вроде есть локально в разных странах.

Кроме фичи, которую отметил Alexey Levin, интересного пока я у Blekko не вижу, слэш-теги на уровне "как на этих сайтах" решают какую-то локальную задачу, причем не понятно, зачем это нужно массе.

А что мешает Яндексу создать свою биржу ссылок?

2 ноября 2010, 15:42

JProger:
Есть такой принцип: "Если не можешь противостоять - возглавь".

Все немного не так. :)

Противостоять Яндекс может, но зачем? Время для противостояния упущено - под Яндексом развилась целая паразитирующая отрасль с немалым оборотом, промышляющая спамом и гс-строительством. Одно из правил любого нормального бизнеса - своих паразитов не стоит давить, их нужно доить. И пофигу на всякие морали - закон джунглей, типа. :D

Решение технически не сложное:

четко формализовать понятие СДЛ, все, что не попало - ГС
модерацию сайтов с отсевом ГС возложить на текущие биржи
с каждой проданной с СДЛ на биржах ссылки брать свою законную десятину (10%)
все ссылки, определенные как сео, но не проданные через нужные биржи тупо не учитывать
ничего при этом не гарантировать, кроме того, что "эта ссылка учитывается при ранжировании"

Таким образом решается проблема ГС - смысл их клепать под Яндекс пропадет, разве что под гугл. Плюс реальная прибыль от дойки оптимизаторов может увеличить текущую чистую прибыль на 20-30%. Практически на халяву. Для оптимизаторов при этом ничего не меняется - матрикснет обдурить все равно будет сложно. Цена ссылки немного вырастет, что не обязательно приведет к увеличению бюджета, т.к. ссылок можно меньше купить - они же на 100% рабочие будут. :)

Яндексоиды пока не созрели для такого шага, но работа с ними ведется. :)

Поиск будущего: у каждого — он свой - продолжение...

2 ноября 2010, 15:12

vitali_y:
вот претендент на поиск будущего:

Пока это просто еще один поисковик. Рановато выдавать ему громкие титулы, даже уровня "претендент".

Любопытно, чей индекс используется. Что-то я не нашел инфы. Если сделали свой, то настроены парни более, чем серьезно.

vitali_y:
- тут в принципе все идеи улучшения поиска заложены - те что можно было придумать - т.е. очевидные всем - это уточнение запросов через так называемый слэш-тэг и возможность помечать сайты как спам.

Почему "все"? Других не может быть?

Alexey Levin:
Однако, интересна идея кастомизации слэштегов, когда можно предопределить для себя определенную группу сайтов и искать по ним. Но не думаю, что это может стать массовой фичей.

Ну да, удобная фича. Особенно при быстро обновляемом индексе.

vitali_y:
если они "хитрож-е" - запатентовали идею - их вероятно купят либо ms в bing либо google...

Это вряд ли. Такую идею запросто можно переформулировать и запатентовать еще раз.

vitali_y:
хотя подвинуть google как царя горы сложно уже будет - но повторюсь это наиболее правильное направление в создании поисковика...

А при чем тут "подвинуть гугл"? Доля поискового трафа гугла зависит в первую очередь от грамотно выстроенного бизнеса, к поисковым технологиям и поисковым фичам это слабо относится.

Как определяется продажность ссылок. Конспект одного исследования.

1 ноября 2010, 19:38

Realtim:
G00DMAN, для тех, у кого нет ресурсов для собственных более репрезентативных исследований и это будет полезно почитать.

Что полезного можно извлечь из КГ/АМ?

Realtim:
ну тут можно не согласится. На новостных сайтах после размещения новости со ссылкой на первоисточник потом же нет ротации этих ссылок. Размещенные ссылки так и остаются размещенными, потом они ведь не меняются другими, как на бирже.

Так Вы читали статью? Или просто угадали все буквы? Там в самом начале формула для коэффициента ротации, два действия - вычитание и деление. Или Вы еще не проходили таких действий на уроках? :D

G00DMAN добавил 02.11.2010 в 15:11

Arsh:
Кстати, не подскАжите - где-то кто-то оценивал необходимый объем выборки для верификации одной независимой переменной?

Про верификацию не понял, что Вы хотите верифицировать? Независимость переменной? От чего, если она одна?

Про объем выборки я выше написал, объем выборки - это количественный фактор, и он не самый важный. Гораздо важнее при любых "выборочных" исследованиях качественный фактор. Поэтому необходимо, чтобы выборка была репрезентативной (т.е. чтобы отображала основные свойства всего объекта). В данном случае этого нет, взят свой десяток ГС и пофиг. :)

P.S. Судя по мылу "типа ученых" - они не только ссылками барыжат, они еще и сайты продвигают. :)

P.P.S. Такой тупой статьи в научном сборнике я не видел никогда. :D

Как определяется продажность ссылок. Конспект одного исследования.

1 ноября 2010, 18:27

yanus:
шикарная выборка, после этой фразы читал мельком. у меня гс в сапе и то больше, причем данные из табличек явно не соответствуют состоянию на моих гс.

Это не научное утверждение, его же не опубликовали в RCDL. :D

yanus:
кстати, "ротацию" ссылок можно, конечно, использовать как индикатор "seo-ссылок", но это будет работать намного медленнее, чем способ, описанный в мадридском докладе. зачем все это замутил ТС непанятьна.

Естественно, 99,99% сео-ссылок можно спалить влет, не важно где они стоят, на ГС или в "вечных" статьях, но это даже не важно. Важна "научность" статьи, а ее одобрение рядом коллег - доставило немного лулзов. :)

shefoo:
Это частное исследование, сделанное для публикации на конференции. Типа научная деятельность.

Во-во, "типа научная", да.

shefoo:
Постебаться над статьей и я могу. Ждем конструктивной критики.

Если каждый бред конструктивно критиковать, то ни на что больше времени не хватит. Ну да ладно, вкратце на этот раз отпишусь...

муромские типа научные:
В качестве объекта исследования были выбраны 10 сайтов, размещающих ссылочный спам с использованием ссылочных брокеров. Сайты ежедневно сканировались в течение 7 месяцев (с 1 июня 2009 г. по 31 января 2010 г.). Общее число сканируемых страниц составило около 5000 (число страниц меня-лось в связи с изменениями сайтов). На сайтах ежедневно ссылочными брокерами размещалось около 5500 ссылок. Информация о факте размещения и месте расположения ссылок была предоставлена нам владельцами сайтов.

10 сайтов - это круто. Не, ну если бы они исследовали процентов 20-30 сапо-сайтов хотя бы, определили критерии "среднего" сапо-сайта и взяли 10 таких средних, было бы еще немного научненько, даже при спорных критериях. Но этого нет, взяли то говно, что было у знакомого ВМ, который им скидывал ежедневно табличку в ехеле. А может и сами 10 ГС наклепали. Чего не сделаешь для науки... :D

муромские типа научные:
В период исследования основные показатели сайтов – тематика, индекс цитируемости и PageRank не изменялись

За 7 месяцев тИЦ не менялся, хотя там были веселые апдейты. Это говорит об одном - исследуемые ГС были нулевками. Зашибатая выборка для исследования. :D

муромские типа научные:
Для анализа ротации спам-ссылок мы использовали два параметра – общее число спам-ссылок, размещаемых на сайте за период исследования (7 месяцев), и число спам-ссылок, размещенных в настоящее время.

При этом нам было пофигу на выпадение страниц на нулевых ГС, мы же не чекали на индекс и не думали, от чего могут сниматься ссылки. Зачем думать? Они снимаются, потому что сео-ссылки иначе не могут! Ротация, мать ее! :D

муромские типа научные:
Таблица 4. Распределение ссылок по времени жизни (месяцев)
Период Процент ссылок, %
1 месяц 30.619
2 месяца 20.283
.....
20 месяцев 0.050

Ага, исследовали 7 месяцев, а таблицу накатили за 20. Ну а чо, бумага все стерпит, да и читатель свой уже нашелся - сео-нубы. :D

муромские типа научные:
При значении коэффициента ротации более 0.1 ссылки можно считать поисковым спамом.

Ну да, особенно на новостных сайтах, которые публикуют в день несколько десятков чужих новостей с честными ссылками на первоисточник. Вот же спамеры...

Приколов в работе много, подробнее лениво расписывать.

Разработка поисковой системы

30 октября 2010, 21:33

Каширин:
Словарь - это список всех вариантов.

Анализатор же пытается предсказать . Используя морфологические правила. Для русского языка анализатор - не самый лучший вариант, ведь у нас самая сложная морфология в мире. Список правил по объему сам тянет на словарь :)

Мартин Портер, автор самого известного алгоритма определения основы слова, - англичанин. Им легко - у них словоформ-то, считай, нет никаких :) одни предлоги. А у нас для каждого падежа - своя словоформа.

Ну я же написал - словарь с правилами. Продвинутый анализатор может и предсказать наиболее вероятную каноническую словоформу с большой точностью, простые - ничего не предсказывают, просто выдают весь список каконических, в порядке убывания встречаемости.

В английском языке, как говорят, все проще и можно стеммером обойтись (тем же портеровским), в русском - не получится.

Разработка поисковой системы

30 октября 2010, 20:51

Каширин:
Какой на Украине поисковик? Это же keva - знаменитый сегалович Рамблера.

МЕТА - какой-никакой, но говорят, что в Украине он собирает бОльшую долю трафа, чем Рамблер в России. Так что keva развивается, в отличие от. :)

Каширин:
ТС, а зачем вам анализатор какой-то? Имея морфологический словарь, вы можете искать словоформу по строгому соответствию. Конечно, так вы не сможете склонять незнакомые вам слова. Но я пришел к выводу, что русский язык развивает не так быстро.

Например, за 20 лет новых слов появилось не более 15%. А это было постперестроечное время, когда появились брокеры, дилеры и консалтинги. Сейчас в год едва ли появляется более сотни новых слов. Их все можно заносить в словарь.

По большому счету анализатор - это и есть словарь, со всеми правилами и исключениями из них.

Разработка поисковой системы

30 октября 2010, 17:46

vitali_y:
не знаю, не знаю - тут разбираться нужно. подозреваю что авторское право тут не причем - это из разряда авторского права на макулатуру у автора напечатанного в газете. если я не выдаю текст за свой а лишь хочу его проиндексировать в тестовых целях - с газеткой я могу и в туалет сходить при отсутствии другой бумаги - тут то же.

В соглашении, которое подписывает участник, организаторами оговорены различные проблемные случаи. Это на самом деле важный момент, мало ли, что Вы там захотите сделать с полученными от конкретных лиц чужими авторскими текстами. Так что подписку брать необходимо, что бы Вы там не думали. :)

vitali_y:
он был мне интересен несколько лет назад, теперь нет.

Я уже понял, просмотрев Ваши посты на этом форуме. :)

Разработка поисковой системы

30 октября 2010, 16:39

vitali_y:
копирайт, соглашение - боюсь даже предположить что за информация содержится в этих документах... не иначе в викиликс скоро попадет... мне это не больно то и нужно - то что не стоит ничего - и должно распространятся бесплатно, без всяких соглашений. тут люди в opensource выкладывают на порядок (*10) ценнейшие вещи без всяких соглашений.

Дело не в интеллектуальной ценности. Дело в том, что коллекции собираются в вэбе, из чужих источников, на которых стоит копирайт. И есть закон об авторском праве, так что не все так просто, как Вам кажется.

vitali_y:
все банально - нет времени и желания - мою работу над StopKa никто не спонсирует и для меня это скорее хобби.

То Вам был интересен РОМИП, но не было ссылки на скачку, то вдруг стал не интересен - Вы бы определились, чтоле... ;)

1 ... 27 28 29 30 31 32 33 34 35 ...196

Всего: 1960

Google: E-E-A-T не является фактором ранжирования

Переиграть и победить: как анализировать конкурентов для продвижения сайта

G00DMAN