Идея новой технологии поиска (скана)

43

nikanet

15 ноября 2006, 09:54

819

Как известно, поисковые системы запускают своих пауков сканировать миллионы страниц сайтов. Какие-то SE обходят сайты раз в 4-5 дней, какие-то не справляются и за неделю. К тому же глубина сканирования на таких скоростях ограничивается главной страницей и вложенным уровнем. Информация, размещенная поглубже может ждать своего звездного часа от нескольких недель до месяцев.

Вспоминая про технологию RSS (когда не вы ходите по сайтам, а они приходят к вам) пришла на ум мысль: а что если не паук будет приходить к нам, а мы к нему (читай, к поисковой системе)? Тогда сайты будут отдавать только изменившиеся и/или новые порции информации и паукам не придется перелопачивать один и тот же контент до бесконечности. Уменьшится объем обрабатываемой информации, увеличится скорость индексирования.

Google уже придумала что-то подобное в виде Sitemaps, но там речь идет только о карте сайта.

Технически это может выглядеть так. Поисковая система выпускает некий софт для установки на веб-сервер (централизовано или для каждого сайта в отдельности). Софт следит за появлением новых страниц и обновлением старых и отправляет пакеты с новой инфой прямиком в поисковую систему. Та ее обрабатывает обычным образом и готовит в выдаче.

Все довольны.

519

greenwood

15 ноября 2006, 10:01

#1

сено к лошади не ходит

105

il4

15 ноября 2006, 10:05

#2

идея хороша, но на заре столь ярой борьбы со спамом и пр. вряд ил реализуется

69

Kolyaj

15 ноября 2006, 12:32

#3

Плохой пример с RSS. Там новости не приходят сами. За ними идут RSS-агрегаторы, а потом показывают их вам.

Идея тоже плохая и не жизнеспособная. Вы рассуждаете с точки зрения оптимизатора, а надо с точки зрения поисковой машины.

Во-первых, не станет поисковик позволять решать за себя, что ему индексировать, он индексирует то, что видит посетитель сайта, а для этого сайт надо посетить.

Во-вторых, есть тысячи сайтов, владельцы которых не задумываются о том, как работают поисковые системы, а эти сайты тоже надо индексировать.

И в-третьих, если щас решается проблема на какой сайт сходить пауку следующим, то в этом случае добавится еще проблема выбора заявки (пакет с новой информацией), которую надо следующей обработать, а их будет очень и очень много.

Google прокомментировал жалобы вебмастеров Вопрос по js, как Google: встроенные видео имеют

S

85

saman

15 ноября 2006, 12:35

#4

nikanet:
Софт следит за появлением новых страниц и обновлением старых и отправляет пакеты с новой инфой прямиком в поисковую систему.

Нуууу, грубо говоря, Google нечто подобное и реализовал, создав Google SiteMap...

С уважением, Хорев Андрей (http://www.khorev.net/)

519

greenwood

15 ноября 2006, 15:23

#5

поисковик ходит по ссылкам, тем самым определяет насколько сайт популярен (грубо)

T

60

topol

15 ноября 2006, 17:50

#6

Идея всем хороша, но только изменение содержания страниц и количества страниц не самый важный критерий. И ссылки будут учтены при условии что все сервис к себе установят.

105

il4

15 ноября 2006, 17:56

#7

я так понял у ТС идея была не в учете ссылок, а в быстром индексировании инфы, и наверно нидексировании не всех страниц на поиск новой инфы, а непосредственная передача инфы сраху яше, дабы уменьшить нагрузки, но.....пока что сказки!

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

519

greenwood

15 ноября 2006, 18:17

#8

я конечно не программист ... но я бы вставлял скрипт от поисковика, который бы показывал контрольную сумму поисковику, прежде чем скачивать страничку

105

il4

15 ноября 2006, 18:26

#9

да по-моему это обречено также как и lastmodificate (скорее всего неправильно написал) и еще какой то тег есть, который должен привлекать робота, но тоже не работает

K

56

ksm

15 ноября 2006, 20:23

#10

nikanet:

Вспоминая про технологию RSS (когда не вы ходите по сайтам, а они приходят к вам) пришла на ум мысль: а что если не паук будет приходить к нам, а мы к нему (читай, к поисковой системе)? Тогда сайты будут отдавать только изменившиеся и/или новые порции информации и паукам не придется перелопачивать один и тот же контент до бесконечности. Уменьшится объем .

Вообще-то это значит, что ПС должна держать специально открытые порты на прием такой информации - что приведет к появлению неприятных вещей:

- попытки заDOSить эту службу;

- пытаться просунуть свои данные для чужого сайта (возможно с подменой IP);

- вяческие мега порталы блогов и новостей будут лить информацию потоком (при том, что при обходе сайта ПС может проигнорировать что-то исходя из своих представлений);

- данные залитые в ПС могут вообще не совпадать с данными на сайте (классические доры отдыхают - льем в ПС дор, а страница - пустая с редиректом - причем ПС это не знает - супер!).

- как заливать скриптовые страницы?

Это все только усложнит жизнь ПС

QAвед-sunтехник

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Дзен реализовал для авторов возможность вывода денег через СПБ

Что делать, если ваша email-рассылка попала в спам