Не так. Краулер занимается и закачиванием документов, и извлечением из них ссылок. Индексатор создает поисковые индексы, по которым идет сам поиск.
Используйте C++, там есть библиотеки STL для работы со строками.
Конечно, можно.
Вы паука хотите написать или что-то другое? Или какое отношение к нему имеет "слово" или "фраза" ?
Около 6 млн документов. Точнее скажут только они сами.
Дело не в возможностях этих БД. Поисковый индекс все равно нужно как-то закладывать в базу и создавать в ней индексы с координатами.
Я здесь неоднократно говорил, что универсальные БД не должны использоваться для поисковиков.
На этих движках поисковик с объемом Меты поднять нереально - база быстро ляжет.
Пока украинский интернет (и системы платежей) не слишком развит, нет смысла делать что-то выдающееся. Пока что это сильно убыточное мероприятие, которое могут себе позволить компании, которые основной доход получают от других видов деятельности, вроде бигмира. Даже если кто-то захочет инвестировать в такой проект, все равно нужен хороший бизнес-план.
Наверное, на таком хостинге проще всего будет поставить поиск по сайту, прописав форму поиска на Яндекс или Google, чем найти такой php-скрипт.
Да, 50 тысяч - это не очень много.
Нет, они же построены на использовании баз данных, поэтому ограничения будут уже на объеме в несколько миллионов документов.
john_helbert, для подобных объявлений есть специальный раздел - работа называется. Переношу снова.
Здесь подобные посты не приветствуются.
Пока устное предупреждение.
Будет. ;) Zute, у myWebsearch четыре версии, на трех разных языках, внедрения более чем на 20 сайтах. Стандартная версия использует Беркли для хранения лексикона.
На этом предлагаю спор о том, какой поисковик лучше или хуже, закончить. Пусть человек сам определяется, что ему больше подходит.
Зависит от версии поисковика. Вполне работает и без Беркли.
Я знаком с разработчиком search.com.ua (это и есть "Сова") Петром Власенко и эту информацию подтверждаю - действительно, здесь все построено на mysql.
Однако, несмотря на относительно небольшое количество документов (порядка нескольких миллионов), для нормальной работы пришлось раскидывать всю поисковую базу на сотню таблиц одинаковой структуры - поначалу потери в производительности были огромными.
Сейчас при посещаемости в несколько тысяч хостов Сова как-то все же работает, но очень медленно.