Модель "идеальной" поисковой системы. Моя концепция

MX
На сайте с 27.01.2007
Offline
8
4050

Я как то задал себе вопрос: а возможно ли создать полностью ОТКРЫТУЮ поисковую систему, в которой ранжированием занимался не только поисковик но и сами вебмастеры. Т.е. такая утопическая система, идеальная можно сказать. Чтобы в ней возможно было открыть все механизмы и алгоритмы ранжирования и при этом объективно оценивать сайты между собой. Сразу хочу сказать, что я не претендую на то что я сейчас начну всё это разрабатывать, покупать сервера, и т.д. короче создавать я это не собираюсь, а просто решил рассмотреть проблему.

И ещё, такого рода система – вещь не очень простая, а тем более столь радикальная, поэтому возможны сложности с пониманием. Постарайтесь настроится на максимально внимательное чтение. И так начали…

Предыстория. Почему я задался таким вопросом.

Всё очень просто. Хотя занимаюсь оптимизацией сайтов я не так долго, всего год. Но за это время уже понял, что поисковики – это своего рода монополисты. Они ведут скрытую политику, диктуют свои правила, не разглашая их при этом. А подчас, даже просто беспредельничают и показывают поразительную необъективность по отношению к сайтам. Возникает ситуация, что оптимизаторы не могут ясно понять, каким он должен быть, «хороший» сайт в понимании поисковика. Как сделать его таким, чтобы поисковик считал его наиболее релевантным по запросам. И именно из-за этой неопределённости и возникают у вэбмастеров желание обхитрить систему. Поэтому я и задал себе вопрос: «А возможна ли она? Поисковая система с полностью открытыми алгоритмами ранжирования?»

Уход от централизации в максимальную децентрализацию.

Первый недостаток современных поисковых систем, который я хотел бы устранить – это их централизация. А централизация означает, что вся информация хранится в одном месте, все работы и расчёты производятся в одном месте, все решения (результаты выдачи) принимаются в одном месте.

Итак, почему это недостаток, здесь несколько причин:

1) Полная централизация требует колоссальных ресурсов – это огромные базы данных, множество компьютеров и т.д. Учитывая темпы роста Интернета в ближайшем будущем придется применять просто невероятные мощности, а если не применять, то получится как сейчас с Яндексом – апдейты раз в месяц и куча глюков (и это не удивительно, ведь нужно обрабатывать столь огромное количество информации которое все больше и больше).

2) Только при управлении в одном центре можно достичь полной конфидициальности. А так как по нашей концепции поисковая система должна быть открытой, то и необходимость в централизации отпадает полностью.

3) Поисковая система не всегда может правильно оценить конкретный ресурс. Я считаю, что правильнее самому обладателю сайта поручить выполнение ранжирования документов внутри сайта.

И теперь, самое главное как уйти от централизации и устранить все эти минусы. Я нашёл выход - это внедрение в каждый сайт своей минипоисковой системы. Эта минипоисковая система будет индексировать содержимое сайта по правилам самого обладателя сайта. Только вэбмастер будет решать, какие страницы его сайта по каким запросам более релевантны. А потом свои индексы уже будет отправлять на сервер поисковой системы. Возможно вам всё это покажется странным и вы зададите вопрос: «Как это? Разве можно доверять вэбмастеру индексирование? Да он же там…» Я отвечу можно! Ведь это открытая система, мы ничего не скрываем. А данным ранжирования сайтом самого себя можно доверять! Почему это так я расскажу позже.

Конечно же этот выход тоже не лишён своих недостатков:

1) Понимаю, не у всех сайтов есть возможность внедрения скриптов, для них возможно использования дополнительной услуги поисковой системы (выполнение тех же функций по указаниям владельца) или заказ таких услуг у сторонних компаний.

3 основания ранжирования

Основание 1. Контент.

Без него никак, пользователю нужно показывать те страницы, в которых раскрывается, то что он искал. Как уже было сказано выше, эту функцию мы возложим на сами сайты. Они будут индексировать сами себя и создавать свой индекс. Вэбмастеры будут определять, что является более значимым в ранжировании. Особенностью индекса полученного от сайта будет то, что он будет представлять из себя что то подобное огромному HTML документу, содержащему все страницы сайта, всё его содержимое. В этом «суммарном» документе будут выделены наиболее важные (по мнению вэбмастера) части, они то и будут более релевантны. (Аналогия с тэгами H1, H2 и т.д.). Этот индекс или «суммарный» документ будет отправляться на сервер поисковика. Как часто будет передаваться новая информация зависит от вэбмастера и его ресурсов. Не придется ждать и гадать когда будет апдейт, вы сами будете делать апдейты своего сайта когда захотите.

Ещё одна особенность этого принципа – это то, что на сервере поисковика все «суммарные» документы будут равны между собой. Т.е. каждому даётся одинаковый вес (пока не учитываем вовсе остальные два основания ранжирования, только по контенту) Поэтому этим данным и можно доверять. Каждый оптимизатор захочет отдавать системе наиболее релевантные тематике своего сайта тексты.

Плюсы данного принципа:

1) Полная открытость

2) Частота апдейтов зависит только от вэбмастера

3) Принципы ранжирования документов определяете вы.

4) При выдаче в поиске будет учитываться не только текст конкретной страницы но и остальное содержимое сайта тоже. (значит выше в выдаче будут находится сайты полностью и специализированно посвященные тому что пользователь искал)

5) Предполагается что оптимизаторы будут выдавать наиболее релевантные тематике своего сайта тексты.

Недостатки:

1) Требуются ресурсы со стороны сайтов, которые не у всех есть

2) Возможно, больше сложностей для вэбмастера (хотя грамотно наладить систему ранжирования под свой сайт – это в интересах его самого)

Основание 2. Ссылочное ранжирование.

Вот здесь то и кроются множество тайн и вопросов по каким правилам, коэффициентам, алгоритмам оно происходит. Ни одна современная поисковая система никогда не раскроет этих тайн, но а наша то должна быть открытой. Единственным решением является разработка такой системы ранжирования, которая не позволяла бы вэбмастерам злоупотреблять её открытостью. Выход найден следующим образом.

У каждого сайта и каждой страницы будет индекс цитирования. Ничего нового не сказал, да? Конечно это уже есть у Яндекса (Взвешенный Индекс Цитирования ВИЦ, который скрыт от всех) у Google (Page Rank) и у других… Но главное отличие в методе его вычисления! Я предлагаю оценить каждый сайт в определённое количество баллов, допустим 1000 (или 1). Эти баллы и будут весом главной страницы. Главная естественно будет ссылаться на внутренние. И каждая ссылка будет «отнимать» у веса главное какую то часть. Например У сайта 4 подраздела, соответственно веса можно распределить:

1000 = 600 (оставим главной) + 100 (Раздел1) + 100 (Раздел2) + 100 (Раздел2) + 100 (Раздел2)

или

1000 = 250 (оставим главной) + 250 (Раздел1) + 250 (Раздел2) + 250 (Раздел2) + 250 (Раздел2)

Каким образом будет распределятся вес, устанавливает сам оптимизатор или можно оставить по умолчанию. Главное на что нужно обратить внимание, это то, что веса распределяются в полном объёме (т.е. без понижающего коэффициента) и то, что базовый вес выдаётся только корню сайта а не страницам (как у современных поисковых систем). Почему именно сайту зададите вы вопрос. Да потому что это единственно что нельзя без затрат создать. Так например наштамповать миллиарды страниц на скриптах не составляет труда, да и поддомены сейчас можно делать тысячами, а за домен 2-го уровня всё таки придётся денег отдать.

Так как распределение без понижающего коэффициента, то можно сказать что сумма весов всех страниц сайта (при условии что ни одна страница сайта не ссылается на другие сайты) будет равна 1000, т.е. базовому весу домена. И соответственно сумма весов всех проиндексированных страниц будет равна «Кол-во проиндексированных доменов * 1000».

Преимущества такого внутреннего ранжирования:

1) Вэбмастеры будут ставить ссылки только если действительно считают ресурс авторитетным либо, если за ссылку заплатили.

2) Отпадает необходимость в дорвеях. Поскольку обычно на дорвейных сайтах тысячи безсодержательных страниц каждая из них будет иметь ничтожный вес и отнимать вес у основного домена и страниц с нормальным содержимым.

3) Вэбмастеры будут стараться оставлять на сайте только уникальную и полезную информацию. Поскольку каждая дополнительная страница будет в понижать вес остальных.

продолжение следует...

MX
На сайте с 27.01.2007
Offline
8
#1

продолжение...

Техническая реализация метода:

Каждый сайт индексируя своё содержимое также будет проверять и наличие различных ссылок на странице и записывать их в свой индекс. По своему индексу и по своим правилам распределения веса страниц будут заданы «внутренние индексы цитирования» Эти «внутренние индексы цитирования» пригодятся сайту так же и при организации выдачи (это будет рассмотрено дальше). Помимо внутреннего ранжирования будут определены и внешние ссылки (т.е. ссылки которые находятся на нашем сайте и указывают на других). С внутренним ранжирование я думаю понятно, а вот теперь внешнее. Это самое интересное. Во –первых оценивать внешние ссылки конечно же должна система и вот как она будет это делать:

Как мы уже отметили, при индексировании сайты будет создаваться и индекс внешних ссылок. Этот индекс вместе с индексом содержимого сайта будет отправлен на сервер поисковой системы. Которая в свою очередь будет оценивать внешне ссылочное ранжирование следующим образом. Все ссылки которые ведут от одного ресурса (1) к другому (2) будут ссумироваться и представлять из себя процент от веса всего сайта (который был 1000). Таким же образом будут суммированы ссылки полученные обратно от (2) к (1). Одинаковые части будут удаляться, т.е. если (1) передаёт (2) 10%, а (2) к (1) 5%, соответственно останется что только (1) передаёт (2) 5%. После того как мы проделаем эти операции для всех сайтов., у нас для каждого сайта будет список ссылающихся (с указанием процента от своего веса, который они готовы передать) и тех на кого ссылаемся мы. По этим спискам не сложно оценить вес каждого из сайтов относительно друг друга. Таким образом и будет строится Индекс Цитирования сайта. Опытным путём (на основе модели) установлено, что при условии обновления разных сайтов в разное время веса сайтов переходить друг от друга будут немного необъективно. Т.е. один сайт (1) уже получил ссылку от другого (2) (и уменьшил его вес) а тот (2) в свою очередь ещё не получил новых весов от своих ссылающихся. А когда сайт (2) наконец получит свои ссылки и увеличит свой вес, тогда вес который получил сайт (1) станет уже неактуален. Таким образом эта система будет стимулировать вэбмастеров как можно чаще обновлять информацию о своих ссылках. Неактуальность изменений не столь велика, это связано с тем, что в основном процент, передающийся от сайта к сайт обычно не очень высокий, а также в связи с тем что кроме ссылочного ранжирования есть и другие основания по которым формируется результаты выдачи.

Основание 3. Посещаемость ресурсов.

Рассмотрение этого основания я хотел бы начать с описания того как пользователь ищет информацию через поисковик. Все вы знаете, что набрав искомое и получив набор из страниц во-первых вы начинаете оценивать их по заголовкам и кускам текста. Потом вы щёлкаете по ссылкам, которые более или менее должны ответствовать запросу. Иммено эти действия пользователей и будут дополнительно ранжировать сайты между собой. Т.е. чем меньше сайтов человек просмотрел, чем дальше позиция этих сайтов находится от первой тем больше баллов или веса им можно дать.

Вторым способом, который может использоваться как дополнение к первому, является подсчёт статистики посещений сайтов. Конечно у этого способа есть минус – его можно накрутить за определённую плату. Но, я считаю что как и в случае с покупными ссылками, если владелец сайта готов вкладывать деньги в сайт, вкладывает немало и постоянно значит этот сайт чего то стоит. Это так же как и с обычной рекламой. Мы ведь запоминаем больше товары те, которые больше рекламируются и соответственно тратят больше денег. Обычный рынок.

Окончательно ранжирование и выдача.

Теперь рассмотрим как же происходит ранжирование сайтов при запросе пользователя. Итак у нас есть информация по трём основаниям, это: полный текст сайта, ссылочный вес сайта относительно других и посещаемость его. Обратите внимание! Все характеристики которые будет оценивать поисковая система относятся только к сайту а не к его страницам. Таким образом, поисковик будет только решать, какие сайты, на какое место в выдаче поставить. Соотношения 3-х факторов будут полностью открыты, а при необходимости изменяться и корректироваться. Но как же пользователю показать конкретную страницу, на которой он хочет найти ответ на свой вопрос? Вот здесь опять будут задействованы ресурсы «минипоисковиков» сайтов. Запрос пользователя после определения системой первой десятки сайтов будет отправлен им. И сами сайты на основе уже внутреннего ранжирования определят по какому запросу какую страницу лучше показать. Полученная от сайтов информация с адресом и описанием страниц и будет показана пользователю.

Тематичность.

Ещё один аспект системы – это её изначальная тематичность. Я её ещё нигде не упоминал, но это сделано только с целью не загружать вас заранее. Так вот тематичность будет присутствовать во всех трёх аспектах ранжирования: При анализе текстов сайта тематичность учитывается благодаря анализу слов присутствующих в содержимом. При ссылочном ранжировании, все веса сайтов и страниц, которые я упоминал ранее предполагается сделать комплексными, т.е. если вес сайта 1000, то это может означать, если сайт полностью посвящён одной тематике, то 1000 баллов по тематике, например, Авто, а по другим по нулям. Или если сайт посвящен и Авто и Бизнесу то возможно и другое разделение, например, из суммарной 1000 баллов 700 на тематику Авто и 300 Бизнесу. Базовый вес сайта будет определяться его создателем, т.е. каждый сам укажет проценты по каждой тематике. А дальнейшее корректирование тематичности будет осуществляться за счёт внешних ссылок. Если на сайт ссылаются сайты с такой же тематикой как и у сайта-получателя ссылок, то естественно рейтинг сайта повысится именно в этой тематике. Аналогично и с посещаемостью, если на сайт заходят при запросах в основном одной тематики, то именно эта тематика и будет его сильной стороной.

Итог:

Положительные моменты системы:

1) Абсолютная открытость системы! Абсолютная открытость подразумевает, что все алгоритмы и коэффициенты будут открыты, будет доступна вся информация касающаяся весов сайтов, ссылочного ранжирования и др. Все оптимизаторы будут знать, что и как оценивается, и будут наконец стремится не обмануть систему а создать лучший контент или вкладывать в сайт больше денег.

2) Максимальная динамичность! Каждый сайт может обновлять свою информацию так часто как желает. При чём возможно же и частичное обновление, не обязательно передавать постоянно информацию об одних и тех же неизменяющихся страницах. А если на сайте есть горячие новости то именно эти новости можно отправить в поисковик как только они появились. Та же ситуация с ссылками появление или исчезновение ссылок будет проходить гораздо быстрее чем сейчас и это будет полностью открыто.

3) Минимальным станет количество сайтов создающихся только для поисковиков. Т.к. сейчас они в основном или на бесплатных хостингах на третьем уровне или как поддомены основного. При данной системе каждая дополнительная страница сайта будет уменьшать вес остальных, поэтому вэбмастеры будут заинтересованы в большей насыщенности, уникальности информации на своих сайтах и будут закрывать ненужную информацию от индексации.

4) Принципы ранжирования страниц своего сайта полностью определяет сам оптимизатор. Определение, какая страница по какому запроса наиболее полно соответствует тоже в его власти.

5) Требуется меньше ресурсов от поисковой системы и она будет оперировать не страницами как сейчас а сайтами. Для статистики в индексе Яндекса более 2-х миллиардов страниц. А количество сайтов 700 тысяч (по данным на 15 декабря 2006). Разгрузка поисковой системы придаст ей большей стабильности в работе.

6) Система наконец переведёт поисковика и оптимизаторов «на одну сторону баррикады». Поскольку и те и другие будут заинтересованы в одном, показать пользователю самое лучшее из того что он искал.

Ещё раз повторюсь, это всего лишь моя утопическая модель. Я не знаю, на сколько её возможно реализовать в реальности. А зачем я её написал и выложил здесь, так это только для того чтобы поделиться своим мнением, узнать мнения других по этому вопросу… узнать о минусах системы, которые я ещё не обнаружил… узнать о ваших предложениях

Stripe
На сайте с 05.09.2006
Offline
222
#2
Marat_X:
Так например наштамповать миллиарды страниц на скриптах не составляет труда, да и поддомены сейчас можно делать тысячами, а за домен 2-го уровня всё таки придётся денег отдать.

А не приведет ли это к закрытию информации?? Допустим вебмастер решит что надо оставить 1000 на главной а остальное перекрыть. И что получится тогда?

Marat_X:
3) Вэбмастеры будут стараться оставлять на сайте только уникальную и полезную информацию. Поскольку каждая дополнительная страница будет в понижать вес остальных.

И плодить сайты пачками для каждого кейворда.

Marat_X:
вкладывает немало и постоянно значит этот сайт чего то стоит

Денег, сил. Битва бюджетов?

Marat_X:
или вкладывать в сайт больше денег.

Социальные сайты?

Marat_X:
Я не знаю, на сколько её возможно реализовать в реальности.

Делаем так: 1 сайт нормальный (1 страница чтобы вес не терять) на него ссылок с сайтелитов куча, итак до бесконечности. Битва бюджетов за место на верхушке пирамиды.

Сайты от 30р почти по любой теме или наполнение ваших сайтов (/ru/forum/887821) дешевым контентом. Базы товаров и контента (http://nakovalnja.ru). Вечные ссылки за 1$ или 30р. (/ru/forum/741397)
MX
На сайте с 27.01.2007
Offline
8
#3
Stripe:
А не приведет ли это к закрытию информации?? Допустим вебмастер решит что надо оставить 1000 на главной а остальное перекрыть. И что получится тогда?

Если он оставит только главную, тогда его будут находить только по словам имеющимся на главной. А раскрыть все темы, расмотренные на всём сайте в рамках одной страницы я думаю, будет невозможно. И потом, это же тока базовая концепция, реальная будет с открытыми коэффициентами, которые и будут все точнее регулировать.

>И плодить сайты пачками для каждого кейворда.

Учитывается не только ссылочное ранжирование, т.е не только эти 1000 баллов. Опять таки, коэфициенты, ведь можно оценивать домены и по новизне создания, по наполнению и т.д.

>Денег, сил. Битва бюджетов?

Да, этоже такой же рынок рекламы, как и теле радио, сми. Кто больше вкладывает в рекламу тот получате результат.

>Социальные сайты?

Поддержку социальных сайтов можно обеспечив созданием каталога чисто соц. проектов. А также опять таки учитываются же несколько факторов ранжирования. Сайт может проигрывать в одном, но выигрывать в другом, например в уникальности контента и специализации

Stripe:
Делаем так: 1 сайт нормальный (1 страница чтобы вес не терять) на него ссылок с сайтелитов куча, итак до бесконечности. Битва бюджетов за место на верхушке пирамиды.

Это уже рассмотрел в объяснениях выше

broken
На сайте с 03.10.2006
Offline
228
#4

модель красива только на бумажке. но при детальном рассмотрении возникает ощущение что она не потянет "большие сайты" - новостные, контентные и т.д . она больше ориентирована на "визитки" и небольшие статические контентные проекты. допустим есть большой сайт с большой посещаемостью и постоянно обновляемой информацие (новостник) - ему помимо ресурсов которые сжирают пользователи и те кто его поддерживают, надо еще выделить ресурсы на самоиндексацию- ну если для большого проекта это значит поставить себе еще один сервер и возможно это несущественный расход, то для сидящих на виртуальном хостинге - это станет проблемой. а что делать форумам? или тому же хаброхабру...нужен специально обученный человек который будет определять для каждой публикации тематичность и отправлять её в индекс и т.д. и т.п.

ИМХО не слишком правильный путь. более кстати реален и реализуем алгоритм которой зимой ЛИ показал. не обладая индексом все рунета и отталкиваясь только от логов статистики, он дал весьма наплохие результаты и если бы они продолжили работу - то добились бы достаточно хорошего ранжирования. тем более что факт посещаемости ресурса и более четкое определение его тематичности засчет "подглядывание" в статистику переходов по ключевым фразам, дает более честную картину. НО это тоже неосуществимая утопия :( вопервых это паразитирующий механизм на существующих ПС, так как он именно с них отслеживает переходы и по ним ранжирует, а если тебя нет в первых рядах этих ПС то и в ЛИ ты не появишься. но зато оглядываясь на количество посетителей и длительно пребывания, он отсеивает мусор который есть в серпе ПС доноров. а во вторых и это главный минус - у всех должен стоять их счетчик :) нет счетчик - нет в их индексе.

но в любом случае эксперимент был забавным.

MX
На сайте с 27.01.2007
Offline
8
#5
broken:
модель красива только на бумажке. но при детальном рассмотрении возникает ощущение что она не потянет "большие сайты" - новостные, контентные и т.д . она больше ориентирована на "визитки" и небольшие статические контентные проекты. допустим есть большой сайт с большой посещаемостью и постоянно обновляемой информацие (новостник) - ему помимо ресурсов которые сжирают пользователи и те кто его поддерживают, надо еще выделить ресурсы на самоиндексацию- ну если для большого проекта это значит поставить себе еще один сервер и возможно это несущественный расход, то для сидящих на виртуальном хостинге - это станет проблемой. а что делать форумам? или тому же хаброхабру...нужен специально обученный человек который будет определять для каждой публикации тематичность и отправлять её в индекс и т.д. и т.п.

что касается индексирования я уже отмечал, если нет своих ресурсов, можно доверить это подразделению поисковой системы либо сторонним организациям, которые будут предлагать такие услуги (цену таких услуг установит рынок) Я же не говорю, что поисковик полностью откажется от индексации, нет. Он будет индексировать но не всех, это будут социальные проекты у которых нет своих возможностей, хорошие проверенные крупные ресурсы, как вы сказали "большой сайт с большой посещаемостью и постоянно обновляемой информацие (новостник)"

broken:
ИМХО не слишком правильный путь. более кстати реален и реализуем алгоритм которой зимой ЛИ показал. не обладая индексом все рунета и отталкиваясь только от логов статистики, он дал весьма наплохие результаты и если бы они продолжили работу - то добились бы достаточно хорошего ранжирования. тем более что факт посещаемости ресурса и более четкое определение его тематичности засчет "подглядывание" в статистику переходов по ключевым фразам, дает более честную картину. НО это тоже неосуществимая утопия :( вопервых это паразитирующий механизм на существующих ПС, так как он именно с них отслеживает переходы и по ним ранжирует, а если тебя нет в первых рядах этих ПС то и в ЛИ ты не появишься. но зато оглядываясь на количество посетителей и длительно пребывания, он отсеивает мусор который есть в серпе ПС доноров. а во вторых и это главный минус - у всех должен стоять их счетчик :) нет счетчик - нет в их индексе.
но в любом случае эксперимент был забавным.

этот фактор я тоже рассмотрел в системе как 3-ее основание ранжирования.

Конечно же я согласен с Вами что всё это утопия, но будет надеятся что в будующем мы будем приближаться к этому.

broken
На сайте с 03.10.2006
Offline
228
#6

незнаю. мне более разумных кажется принцип когда сами пользователи являются частью ПС. я уже как то писал про тулбары и к чему это может привести, повторюсь здесь. Пользователь ставит тулбар вашего поисковика. и он с помошью него можно начинать ранжировать сайты более корректно. у пользователя есть возможность выставить оценку сайту. видно сколько пользователь проводит времени на сайте и колво просмотренных страниц - вот вам и определение "веса" сайта, видно какие сайты не интересны и пользователь их покидает сразу - вот вам автоматическая система очиски серпа от мусора и тд и тп. возможности безграничны, а главное все это считай ручная проверка, которыю не могут себе позволить ПС. хотя как паррировал мне greenwood

ничего, скриптов напишем, ботов нагоним, работу человека съэмитируем....
MX
На сайте с 27.01.2007
Offline
8
#7
broken:
незнаю. мне более разумных кажется принцип когда сами пользователи являются частью ПС. я уже как то писал про тулбары и к чему это может привести, повторюсь здесь. Пользователь ставит тулбар вашего поисковика. и он с помошью него можно начинать ранжировать сайты более корректно. у пользователя есть возможность выставить оценку сайту. видно сколько пользователь проводит времени на сайте и колво просмотренных страниц - вот вам и определение "веса" сайта, видно какие сайты не интересны и пользователь их покидает сразу - вот вам автоматическая система очиски серпа от мусора и тд и тп. возможности безграничны, а главное все это считай ручная проверка, которыю не могут себе позволить ПС. хотя как паррировал мне greenwood

Похожую концепцию я хотел применить в третьем основании ранжирования. Т.е. учитывать мнения посетителей. Я думал, как лучше это сделать, а вот идея с тулбаром мне нравится! Я включу её в концепцию, с вашего разрешения конечно.

Ну а то что касается роботов. От них мы врядли когда то избавимся. Ещё нет пока методов точно определяющих компьютер это или человек. С этим тоже согласен

broken
На сайте с 03.10.2006
Offline
228
#8

включайте :)

лично мне это видится ключевым моментом в постороении новой ПС. если вспонимть принципы peer-to-peer сетей и а в особенности взять на вооружение технологию торрентов - то я думаю моё видение это концепции будет вам более понятно :) так как круг замкнется, все что исходит от пользователя вернется к нему же и он же будет опроным фактором в этой системе, что даст ей практически неограниченные возможности без использования огромных ресурсов и собственных датацентров. хотя это будет паразитирующая ПС :)

MASe
На сайте с 17.09.2002
Offline
219
#9

ИМХО, красиво, но утопично...

Marat_X:
это будет стимулировать вэбмастеров как можно чаще обновлять информацию о своих ссылках

а зачем...??? для ком.запрсов - да... а для каких новостных, некоммерческих вещей??? скажем прошло вручение Оскаров - люди понаставили ссылок на сайт под событие... какой смысл им обновлять их, если событие интересно только в определенное время... а по вашей модели получается, что такой сайт через 10 апдейтов вообще потеряет вес за счет угасания силы ссылок, а какой-нить сателлит, прокачиваемый, будет на первом месте вечно...

плюс ко всему, я бы скорее был за обратное - за старость и постоянность установленных ссылок - им больше плюсовать надо...

или к примеру, Вы предлагаете веб-мастеру самом ранжировать те или иные документы своего сайта... вот у меня магазин с 10000 позициями товаров... сколько времени я проведу за выставлением коэффициентов и приоритетов??? а по сезону значимость товаров меняется - раз в 2-3 месяца точно такая же корректировка...

ну а самый главный минус, на мой взгляд, это то, что вы рассуждаете со стороны веб-мастера, программиста, оптимизатор в одном лице... ни каждый все это может и умеет... в теории, конечно, рабочих мест должно открыться куча, когда к каждому сайту будет представлен персональный человек на такого рода действия...

но это убьет "любительский" интеренет, личные проекты (которые зачастую гораздо интереснее коммерческих)...

сколько люде берут готовый движок и просто наполняют его информацией, не вникая ни в какие дебри...

кстати, интеграция такой системы в тот или иной движок тоже под вопросом (а без этого никак, ибо во многих движках принцип формирования и отображения страниц заложен в ядре)...

Only God Can Judge Me... Nobody Else... Дрезна (http://www.drezna.ru/) Помощники: Sape (http://www.sape.ru/r.167724536c.php)
[Удален]
#10

В данной модели отсутствует самое главное - финансовая база.

Увы, "простое" время для поиска прошло. Когда всё окупалось рекламой или какими-то дополнительными сервисами.

"Объектное поле" и затраты на его обработку растут в геометрической прогрессии. Аренда помещений, собственное возможное строительство, все коммунальные платежи, износ оборудования, фонд заработной платы, другие соцзатраты, налоговые и другие обязательные платежи, наконец, нужна элементарная прибыль. Которая тоже должна расти.

И специалисты поисковых служб просто вынуждены искать новые способы окупаемости и прибыльности. Без этого они просто не смогут существовать.

Одно ясно - нужен качественно новый механизм взаимодействия ресурса и поисковых служб. Нужен, прежде всего, какой-то некий унифицированный "паспорт" ресурса. Да, который должен функционировать на полностью открытой основе по отношению к ресурсу. Или нужно совершенствовать систему мета-описателей. Как бы отдалённый пример - sitemap. Сейчас многим веб-мастерам предстоит тестировать эту фичу на предмет её эффективности.

Релевантность, посещаемость, динамичность, ссылочность - это, несомненно, критерии в ранжировании ресурсов. Вот тут давайте призадумаемся. Что мы видим на мониторе? Плоскость. Плоскость - это всего лишь двумерность. С одной стороны - какое-то входное значение (некая закрытая функция-совокупность переменных-аргументов) и с другой - результат. Раз и навсегда (до следующего апдейта) определённый, который никак нельзя "дополнительно просмотреть" в каких-то других критериях и граничных условиях. Т.е., мы теперь и здесь подходим к задаче построения некой "распределённой многомерной вычислительной системы". А это - требование новой во много раз повышенной производительности и создание совершенно новых алгоритмов, рассчитанных на настоящую распределённую обработку данных.

В чём состоит проблема сейчас? В том, что на сегодня, увы, пока нет чётко определённого подхода к оценке сегодняшнего сущностного состояния Сети. В том, что у ресурсов разные задачи - просто информация или новости, развлекаловка, архивы, коммерция... И вот эти задачи нужно не давить выборочно-судорожно, а эффективно как-то сформулировать. Сформулировать так, чтобы веб-мастерам не приходилось плодить весь этот мусор - сателлиты, доры, каталоги и пр.

А, возможно, всё проще - нужно просто изначально указывать тематику самим веб-мастером при первоначальном добавлении ресурса в службу поиска. Или "theme-family". Как мы это делаем при описании набора шрифтов.

Возможно, применение данного подхода давно бы уже сняло бы хотя бы часть сегодняшних проблем.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий