- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Народ, лучше скажите, где создателю поисковика брать бесплатный трафик (входящий) и железо. :)
А что, ведь реально есть наверное, хостинги крупные, у которых исходящего трафика избыток, и они могут входящим поделиться? :)
Оффтоп....
Ну как где. Если при соотношении 1/4 трафик бесплатный - то задачу можно свести к генерации исходящего. А на эту тему уже был тред, ты дажется в нем делился рецептом. :)
А железо - покупать.
PageRank performs an objective measurement of the importance of web pages ...
Источники:
http://www.google.ru/corporate/tech.html
/ru/articles/344
что за ерунда?
Зачем так обильно цитировать статью И.Сегаловича?
Может лучше более четко поставить свои вопросы?
И что это за РАЗРАБОТЧИК (НОВОЙ) поисковой машины, которому еще нужны какие-то идеи?
Как можно решить какие алгоритмы хороши, какие нет, если их не проверять в реальных условиях?
Следует отличать ИДЕИ алгоритмов и РЕАЛЬНЫЕ алгоритмы.
Многое зависит от ЦЕЛИ, для которой создается поисковая машина.
Трудно ожидать, что на форуме возможно собрать все хорошее, что опубликовано в:
trec.nist.gov
sigir.org
www10.org, www2002.org
и т.д.
Известно где - у крупных провайдеров. Которые за рекламу на поисковике дадут железо и траффик. Надо только их заинтересовать.
W.Ed., как вы реализовали crawler и indexer как разные скрипты?
я просто пробовал несколько схем = все в одном скрипте (много потоков)
два скрипта = но как взаимодействие организовать (у меня пока сокеты pipe под win не пошут :((
4LF
Для взаимодействия можно использовать не только пайпы (чтоб они пахали, надежней пересесть на юникс :) ), а еще и вашу файловую систему, и БД(под этим подразумевается и фс тоже, и любая СУБД, даже гебридная или полностью выдуманная вами), и разделяемую память.... море возможностей. Опять же, в *никсе взаимодействие процессов представляется мне куда проще, чем в винде... :)
lagif, полностью согласен по поводу ОС но все же пока посижу на форточке :)...
а на счет реализации двух скриптов кто как думает... может вообще извращнуться crawler скачал страничку и запустил
indexer -f путь_к_скачанной_странице :) по детски конечно :)) но зато нет потерь по передаче через сокеты, минус в том что память улетучиваться будет :(
попробуйте демоны.
Как можно решить какие алгоритмы хороши, какие нет, если их не проверять в реальных условиях?
Следует отличать ИДЕИ алгоритмов и РЕАЛЬНЫЕ алгоритмы.
Многое зависит от ЦЕЛИ, для которой создается поисковая машина.
Трудно ожидать, что на форуме возможно собрать все хорошее, что опубликовано в:
trec.nist.gov
sigir.org
www10.org, www2002.org
и т.д.
2bvd
Спасибо за ссылки. Отличные материалы.