Зачем так обильно цитировать статью И. Сегаловича? - Поисковые технологии

Разработка поисковика

W.Ed. · 2005-06-29T08:11:39.0000000Z

ВНИМАТЕЛЬНО ПРОЧИТАЙТЕ ПРАВИЛА ДАННОЙ ТЕМЫ В данной теме просьба задавать только конкретные вопросы и/или предложения. Предлагаю собрать в данной теме различные методы и технологии , используемые в поисковых машинах. Это не тема для обсуждений различных баз данных и языков программирования. Поэтому просьба не задавать вопросов типа "А разве mysql подходит для этого?" или "А не лучше ли написать это на перле?". А также сообщений типа "скажите, где создателю поисковика брать бесплатный трафик (входящий) и железо?" Рекомендуется давать ссылки на цитируемую литературу.

WE

18

W.Ed.

29 июня 2005, 09:37

#11

euhenio:
Народ, лучше скажите, где создателю поисковика брать бесплатный трафик (входящий) и железо. :)
А что, ведь реально есть наверное, хостинги крупные, у которых исходящего трафика избыток, и они могут входящим поделиться? :)

Оффтоп....

[Удален]

29 июня 2005, 10:18

#12

Народ, лучше скажите, где создателю поисковика брать бесплатный трафик (входящий) и железо.

Ну как где. Если при соотношении 1/4 трафик бесплатный - то задачу можно свести к генерации исходящего. А на эту тему уже был тред, ты дажется в нем делился рецептом. :)

А железо - покупать.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

29 июня 2005, 11:29

#13

W.Ed.:
PageRank performs an objective measurement of the importance of web pages ...

Источники:
http://www.google.ru/corporate/tech.html
/ru/articles/344

что за ерунда?

Зачем так обильно цитировать статью И.Сегаловича?

Может лучше более четко поставить свои вопросы?

И что это за РАЗРАБОТЧИК (НОВОЙ) поисковой машины, которому еще нужны какие-то идеи?

B

42

bvd

29 июня 2005, 11:44

#14

Как можно решить какие алгоритмы хороши, какие нет, если их не проверять в реальных условиях?

Следует отличать ИДЕИ алгоритмов и РЕАЛЬНЫЕ алгоритмы.

Многое зависит от ЦЕЛИ, для которой создается поисковая машина.

Трудно ожидать, что на форуме возможно собрать все хорошее, что опубликовано в:

trec.nist.gov

sigir.org

www10.org, www2002.org

и т.д.

Google Updates - апдейты Помогите с продвижением Google: Фактор дружественности к

822

Andreyka

29 июня 2005, 17:54

#15

Известно где - у крупных провайдеров. Которые за рекламу на поисковике дадут железо и траффик. Надо только их заинтересовать.

Не стоит плодить сущности без необходимости

4F

20

4LF

2 августа 2005, 11:12

#16

W.Ed., как вы реализовали crawler и indexer как разные скрипты?

я просто пробовал несколько схем = все в одном скрипте (много потоков)

два скрипта = но как взаимодействие организовать (у меня пока сокеты pipe под win не пошут :((

Как сделать "Название ссылки" Метрика показывает визиты с Яндекс кобласит

30

lagif

3 августа 2005, 06:07

#17

4LF

Для взаимодействия можно использовать не только пайпы (чтоб они пахали, надежней пересесть на юникс :) ), а еще и вашу файловую систему, и БД(под этим подразумевается и фс тоже, и любая СУБД, даже гебридная или полностью выдуманная вами), и разделяемую память.... море возможностей. Опять же, в *никсе взаимодействие процессов представляется мне куда проще, чем в винде... :)

Это тоже пройдет...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

4F

20

4LF

3 августа 2005, 08:42

#18

lagif, полностью согласен по поводу ОС но все же пока посижу на форточке :)...

а на счет реализации двух скриптов кто как думает... может вообще извращнуться crawler скачал страничку и запустил

indexer -f путь_к_скачанной_странице :) по детски конечно :)) но зато нет потерь по передаче через сокеты, минус в том что память улетучиваться будет :(

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

30

lagif

3 августа 2005, 14:35

#19

попробуйте демоны.

R

37

Rusl

4 августа 2005, 08:13

#20

bvd:
Как можно решить какие алгоритмы хороши, какие нет, если их не проверять в реальных условиях?

Следует отличать ИДЕИ алгоритмов и РЕАЛЬНЫЕ алгоритмы.
Многое зависит от ЦЕЛИ, для которой создается поисковая машина.

Трудно ожидать, что на форуме возможно собрать все хорошее, что опубликовано в:

trec.nist.gov
sigir.org
www10.org, www2002.org
и т.д.

2bvd

Спасибо за ссылки. Отличные материалы.

Что делать, чтобы попасть в ответы Google Bard

Дзен реализовал для авторов возможность вывода денег через СПБ

Разработка поисковика