G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
юни:
G00DMAN, сейчас ноябрь, барин. Не апрель.

Именно. Время Ашмановской конфы, т.е. больших терок. :)

Seyon:
И кто ведет с ними такую работу?

Да есть приколисты. :)

vitali_y:
ну это те фичи что нужны мне - если бы я писал большой поисковик - их бы я реализовал в первую очередь. а что бы вы реализовали в первую очередь? что для вас новая идея и поиск будущего?

Да новых идей можно много напридумывать, только не очень интересно это. Для меня поиск будущего связан скорее с нахождением ответов на сложные вопросы. Т.е. переколдовка сложного запроса (пусть даже и написанного по строгим правилам) должна рулить, на уровне, близком к ИИ. Ответы на большинство вопросов в сети есть, осталось только научиться их находить. :)

vitali_y:
тут я не рассуждаю о бизнесе google - я говорю о количестве пользователей google как поисковика. найти новых пользователей blekko будет трудно - хотя теги /people и /date - рулят однозначно.

Ну так количество пользователей гугла сделал бизнес, а не качество поиска. По качеству различия сегодня у поисковиков не критичны. Клиентов придется отнимать у всех, проще всего наверное отнять их у альтернативных поисковиков, которые вроде есть локально в разных странах.

Кроме фичи, которую отметил Alexey Levin, интересного пока я у Blekko не вижу, слэш-теги на уровне "как на этих сайтах" решают какую-то локальную задачу, причем не понятно, зачем это нужно массе.

JProger:
Есть такой принцип: "Если не можешь противостоять - возглавь".

Все немного не так. :)

Противостоять Яндекс может, но зачем? Время для противостояния упущено - под Яндексом развилась целая паразитирующая отрасль с немалым оборотом, промышляющая спамом и гс-строительством. Одно из правил любого нормального бизнеса - своих паразитов не стоит давить, их нужно доить. И пофигу на всякие морали - закон джунглей, типа. :D

Решение технически не сложное:

  • четко формализовать понятие СДЛ, все, что не попало - ГС
  • модерацию сайтов с отсевом ГС возложить на текущие биржи
  • с каждой проданной с СДЛ на биржах ссылки брать свою законную десятину (10%)
  • все ссылки, определенные как сео, но не проданные через нужные биржи тупо не учитывать
  • ничего при этом не гарантировать, кроме того, что "эта ссылка учитывается при ранжировании"

Таким образом решается проблема ГС - смысл их клепать под Яндекс пропадет, разве что под гугл. Плюс реальная прибыль от дойки оптимизаторов может увеличить текущую чистую прибыль на 20-30%. Практически на халяву. Для оптимизаторов при этом ничего не меняется - матрикснет обдурить все равно будет сложно. Цена ссылки немного вырастет, что не обязательно приведет к увеличению бюджета, т.к. ссылок можно меньше купить - они же на 100% рабочие будут. :)

Яндексоиды пока не созрели для такого шага, но работа с ними ведется. :)

vitali_y:
вот претендент на поиск будущего:

Пока это просто еще один поисковик. Рановато выдавать ему громкие титулы, даже уровня "претендент".

Любопытно, чей индекс используется. Что-то я не нашел инфы. Если сделали свой, то настроены парни более, чем серьезно.

vitali_y:
- тут в принципе все идеи улучшения поиска заложены - те что можно было придумать - т.е. очевидные всем - это уточнение запросов через так называемый слэш-тэг и возможность помечать сайты как спам.

Почему "все"? Других не может быть?

Alexey Levin:
Однако, интересна идея кастомизации слэштегов, когда можно предопределить для себя определенную группу сайтов и искать по ним. Но не думаю, что это может стать массовой фичей.

Ну да, удобная фича. Особенно при быстро обновляемом индексе.

vitali_y:
если они "хитрож-е" - запатентовали идею - их вероятно купят либо ms в bing либо google...

Это вряд ли. Такую идею запросто можно переформулировать и запатентовать еще раз.

vitali_y:
хотя подвинуть google как царя горы сложно уже будет - но повторюсь это наиболее правильное направление в создании поисковика...

А при чем тут "подвинуть гугл"? Доля поискового трафа гугла зависит в первую очередь от грамотно выстроенного бизнеса, к поисковым технологиям и поисковым фичам это слабо относится.

Realtim:
G00DMAN, для тех, у кого нет ресурсов для собственных более репрезентативных исследований и это будет полезно почитать.

Что полезного можно извлечь из КГ/АМ?

Realtim:
ну тут можно не согласится. На новостных сайтах после размещения новости со ссылкой на первоисточник потом же нет ротации этих ссылок. Размещенные ссылки так и остаются размещенными, потом они ведь не меняются другими, как на бирже.

Так Вы читали статью? Или просто угадали все буквы? Там в самом начале формула для коэффициента ротации, два действия - вычитание и деление. Или Вы еще не проходили таких действий на уроках? :D

G00DMAN добавил 02.11.2010 в 15:11

Arsh:
Кстати, не подскАжите - где-то кто-то оценивал необходимый объем выборки для верификации одной независимой переменной?

Про верификацию не понял, что Вы хотите верифицировать? Независимость переменной? От чего, если она одна?

Про объем выборки я выше написал, объем выборки - это количественный фактор, и он не самый важный. Гораздо важнее при любых "выборочных" исследованиях качественный фактор. Поэтому необходимо, чтобы выборка была репрезентативной (т.е. чтобы отображала основные свойства всего объекта). В данном случае этого нет, взят свой десяток ГС и пофиг. :)

P.S. Судя по мылу "типа ученых" - они не только ссылками барыжат, они еще и сайты продвигают. :)

P.P.S. Такой тупой статьи в научном сборнике я не видел никогда. :D

yanus:
шикарная выборка, после этой фразы читал мельком. у меня гс в сапе и то больше, причем данные из табличек явно не соответствуют состоянию на моих гс.

Это не научное утверждение, его же не опубликовали в RCDL. :D

yanus:
кстати, "ротацию" ссылок можно, конечно, использовать как индикатор "seo-ссылок", но это будет работать намного медленнее, чем способ, описанный в мадридском докладе. зачем все это замутил ТС непанятьна.

Естественно, 99,99% сео-ссылок можно спалить влет, не важно где они стоят, на ГС или в "вечных" статьях, но это даже не важно. Важна "научность" статьи, а ее одобрение рядом коллег - доставило немного лулзов. :)

shefoo:
Это частное исследование, сделанное для публикации на конференции. Типа научная деятельность.

Во-во, "типа научная", да.

shefoo:
Постебаться над статьей и я могу. Ждем конструктивной критики.

Если каждый бред конструктивно критиковать, то ни на что больше времени не хватит. Ну да ладно, вкратце на этот раз отпишусь...

муромские типа научные:
В качестве объекта исследования были выбраны 10 сайтов, размещающих ссылочный спам с использованием ссылочных брокеров. Сайты ежедневно сканировались в течение 7 месяцев (с 1 июня 2009 г. по 31 января 2010 г.). Общее число сканируемых страниц составило около 5000 (число страниц меня-лось в связи с изменениями сайтов). На сайтах ежедневно ссылочными брокерами размещалось около 5500 ссылок. Информация о факте размещения и месте расположения ссылок была предоставлена нам владельцами сайтов.

10 сайтов - это круто. Не, ну если бы они исследовали процентов 20-30 сапо-сайтов хотя бы, определили критерии "среднего" сапо-сайта и взяли 10 таких средних, было бы еще немного научненько, даже при спорных критериях. Но этого нет, взяли то говно, что было у знакомого ВМ, который им скидывал ежедневно табличку в ехеле. А может и сами 10 ГС наклепали. Чего не сделаешь для науки... :D

муромские типа научные:
В период исследования основные показатели сайтов – тематика, индекс цитируемости и PageRank не изменялись

За 7 месяцев тИЦ не менялся, хотя там были веселые апдейты. Это говорит об одном - исследуемые ГС были нулевками. Зашибатая выборка для исследования. :D

муромские типа научные:
Для анализа ротации спам-ссылок мы использовали два параметра – общее число спам-ссылок, размещаемых на сайте за период исследования (7 месяцев), и число спам-ссылок, размещенных в настоящее время.

При этом нам было пофигу на выпадение страниц на нулевых ГС, мы же не чекали на индекс и не думали, от чего могут сниматься ссылки. Зачем думать? Они снимаются, потому что сео-ссылки иначе не могут! Ротация, мать ее! :D

муромские типа научные:
Таблица 4. Распределение ссылок по времени жизни (месяцев)
Период Процент ссылок, %
1 месяц 30.619
2 месяца 20.283
.....
20 месяцев 0.050

Ага, исследовали 7 месяцев, а таблицу накатили за 20. Ну а чо, бумага все стерпит, да и читатель свой уже нашелся - сео-нубы. :D

муромские типа научные:
При значении коэффициента ротации более 0.1 ссылки можно считать поисковым спамом.

Ну да, особенно на новостных сайтах, которые публикуют в день несколько десятков чужих новостей с честными ссылками на первоисточник. Вот же спамеры...

Приколов в работе много, подробнее лениво расписывать.

Каширин:
Словарь - это список всех вариантов.

Анализатор же пытается предсказать . Используя морфологические правила. Для русского языка анализатор - не самый лучший вариант, ведь у нас самая сложная морфология в мире. Список правил по объему сам тянет на словарь :)

Мартин Портер, автор самого известного алгоритма определения основы слова, - англичанин. Им легко - у них словоформ-то, считай, нет никаких :) одни предлоги. А у нас для каждого падежа - своя словоформа.

Ну я же написал - словарь с правилами. Продвинутый анализатор может и предсказать наиболее вероятную каноническую словоформу с большой точностью, простые - ничего не предсказывают, просто выдают весь список каконических, в порядке убывания встречаемости.

В английском языке, как говорят, все проще и можно стеммером обойтись (тем же портеровским), в русском - не получится.

Каширин:
Какой на Украине поисковик? Это же keva - знаменитый сегалович Рамблера.

МЕТА - какой-никакой, но говорят, что в Украине он собирает бОльшую долю трафа, чем Рамблер в России. Так что keva развивается, в отличие от. :)

Каширин:
ТС, а зачем вам анализатор какой-то? Имея морфологический словарь, вы можете искать словоформу по строгому соответствию. Конечно, так вы не сможете склонять незнакомые вам слова. Но я пришел к выводу, что русский язык развивает не так быстро.

Например, за 20 лет новых слов появилось не более 15%. А это было постперестроечное время, когда появились брокеры, дилеры и консалтинги. Сейчас в год едва ли появляется более сотни новых слов. Их все можно заносить в словарь.

По большому счету анализатор - это и есть словарь, со всеми правилами и исключениями из них.

vitali_y:
не знаю, не знаю - тут разбираться нужно. подозреваю что авторское право тут не причем - это из разряда авторского права на макулатуру у автора напечатанного в газете. если я не выдаю текст за свой а лишь хочу его проиндексировать в тестовых целях - с газеткой я могу и в туалет сходить при отсутствии другой бумаги - тут то же.

В соглашении, которое подписывает участник, организаторами оговорены различные проблемные случаи. Это на самом деле важный момент, мало ли, что Вы там захотите сделать с полученными от конкретных лиц чужими авторскими текстами. Так что подписку брать необходимо, что бы Вы там не думали. :)

vitali_y:
он был мне интересен несколько лет назад, теперь нет.

Я уже понял, просмотрев Ваши посты на этом форуме. :)

vitali_y:
копирайт, соглашение - боюсь даже предположить что за информация содержится в этих документах... не иначе в викиликс скоро попадет... мне это не больно то и нужно - то что не стоит ничего - и должно распространятся бесплатно, без всяких соглашений. тут люди в opensource выкладывают на порядок (*10) ценнейшие вещи без всяких соглашений.

Дело не в интеллектуальной ценности. Дело в том, что коллекции собираются в вэбе, из чужих источников, на которых стоит копирайт. И есть закон об авторском праве, так что не все так просто, как Вам кажется.

vitali_y:
все банально - нет времени и желания - мою работу над StopKa никто не спонсирует и для меня это скорее хобби.

То Вам был интересен РОМИП, но не было ссылки на скачку, то вдруг стал не интересен - Вы бы определились, чтоле... ;)

Всего: 1960