Идея новой технологии поиска (скана)

N
На сайте с 24.06.2005
Offline
43
777

Как известно, поисковые системы запускают своих пауков сканировать миллионы страниц сайтов. Какие-то SE обходят сайты раз в 4-5 дней, какие-то не справляются и за неделю. К тому же глубина сканирования на таких скоростях ограничивается главной страницей и вложенным уровнем. Информация, размещенная поглубже может ждать своего звездного часа от нескольких недель до месяцев.

Вспоминая про технологию RSS (когда не вы ходите по сайтам, а они приходят к вам) пришла на ум мысль: а что если не паук будет приходить к нам, а мы к нему (читай, к поисковой системе)? Тогда сайты будут отдавать только изменившиеся и/или новые порции информации и паукам не придется перелопачивать один и тот же контент до бесконечности. Уменьшится объем обрабатываемой информации, увеличится скорость индексирования.

Google уже придумала что-то подобное в виде Sitemaps, но там речь идет только о карте сайта.

Технически это может выглядеть так. Поисковая система выпускает некий софт для установки на веб-сервер (централизовано или для каждого сайта в отдельности). Софт следит за появлением новых страниц и обновлением старых и отправляет пакеты с новой инфой прямиком в поисковую систему. Та ее обрабатывает обычным образом и готовит в выдаче.

Все довольны.

greenwood
На сайте с 08.09.2003
Offline
519
#1

сено к лошади не ходит

il4
На сайте с 23.05.2006
Offline
105
il4
#2

идея хороша, но на заре столь ярой борьбы со спамом и пр. вряд ил реализуется

Kolyaj
На сайте с 28.03.2006
Offline
69
#3

Плохой пример с RSS. Там новости не приходят сами. За ними идут RSS-агрегаторы, а потом показывают их вам.

Идея тоже плохая и не жизнеспособная. Вы рассуждаете с точки зрения оптимизатора, а надо с точки зрения поисковой машины.

Во-первых, не станет поисковик позволять решать за себя, что ему индексировать, он индексирует то, что видит посетитель сайта, а для этого сайт надо посетить.

Во-вторых, есть тысячи сайтов, владельцы которых не задумываются о том, как работают поисковые системы, а эти сайты тоже надо индексировать.

И в-третьих, если щас решается проблема на какой сайт сходить пауку следующим, то в этом случае добавится еще проблема выбора заявки (пакет с новой информацией), которую надо следующей обработать, а их будет очень и очень много.

S
На сайте с 06.02.2006
Offline
85
#4
nikanet:
Софт следит за появлением новых страниц и обновлением старых и отправляет пакеты с новой инфой прямиком в поисковую систему.

Нуууу, грубо говоря, Google нечто подобное и реализовал, создав Google SiteMap...

С уважением, Хорев Андрей (http://www.khorev.net/)
greenwood
На сайте с 08.09.2003
Offline
519
#5

поисковик ходит по ссылкам, тем самым определяет насколько сайт популярен (грубо)

T
На сайте с 23.10.2005
Offline
60
#6

Идея всем хороша, но только изменение содержания страниц и количества страниц не самый важный критерий. И ссылки будут учтены при условии что все сервис к себе установят.

il4
На сайте с 23.05.2006
Offline
105
il4
#7

я так понял у ТС идея была не в учете ссылок, а в быстром индексировании инфы, и наверно нидексировании не всех страниц на поиск новой инфы, а непосредственная передача инфы сраху яше, дабы уменьшить нагрузки, но.....пока что сказки!

greenwood
На сайте с 08.09.2003
Offline
519
#8

я конечно не программист ... но я бы вставлял скрипт от поисковика, который бы показывал контрольную сумму поисковику, прежде чем скачивать страничку

il4
На сайте с 23.05.2006
Offline
105
il4
#9

да по-моему это обречено также как и lastmodificate (скорее всего неправильно написал) и еще какой то тег есть, который должен привлекать робота, но тоже не работает

K
На сайте с 14.08.2006
Offline
56
ksm
#10
nikanet:

Вспоминая про технологию RSS (когда не вы ходите по сайтам, а они приходят к вам) пришла на ум мысль: а что если не паук будет приходить к нам, а мы к нему (читай, к поисковой системе)? Тогда сайты будут отдавать только изменившиеся и/или новые порции информации и паукам не придется перелопачивать один и тот же контент до бесконечности. Уменьшится объем .

Вообще-то это значит, что ПС должна держать специально открытые порты на прием такой информации - что приведет к появлению неприятных вещей:

- попытки заDOSить эту службу;

- пытаться просунуть свои данные для чужого сайта (возможно с подменой IP);

- вяческие мега порталы блогов и новостей будут лить информацию потоком (при том, что при обходе сайта ПС может проигнорировать что-то исходя из своих представлений);

- данные залитые в ПС могут вообще не совпадать с данными на сайте (классические доры отдыхают - льем в ПС дор, а страница - пустая с редиректом - причем ПС это не знает - супер!).

- как заливать скриптовые страницы?

Это все только усложнит жизнь ПС

QAвед-sunтехник

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий