Вячеслав, не смешите аудиторию. У Гугла, как и у Яндекса есть ровно один успешный проект: поиск, точнее говоря различные варианты на тему поиска такие, как поиск в вебе, в новостях и картинках. Больше у Гугла успешных проектов, которые собирали бы глобально аудиторию и уж тем более приносили деньги - нет. Они хоть и анонсировали, что Google Video - 50% рынка, но я в это не верю, особенно по модулю того, что они YourTube купили.
По поводу поиска и MySQL уж позвольте всем сразу ответить (кстати сайт датапарка в это время просто временно лежал, вместе с большим куском Рунета):
Миллион страниц мне кажется - не очень много. Я лично так много Датапарком не индексировал, но не вижу причин почему это невозможно. Индекс там сделан более оптимально, чем в Mnogosearch в multiword или word моде, где он разложен по таблицам. К слову, в свое время у нас Mnogosearch сожрал и проиндексировал больше 2 млн страниц, другое дело, что время поиска там выросло до бесконечности и пришлось ему делать альтернативный индекс вроде того, что сейчас в датапарке.
На тему того, что тянет или нет MySQL база данных большие объемы: все зависит от того, как эффективно раскладывать данные. Какую часть класть в plain files, какую в таблицы. 1 ГЦ 512 ОЗУ и всего за сутки индексируется (без учета времени скачивания и парсинга HTML, локально) эквивалент 2.7 млн средних рунетов. Усопший Aspseek делал это помедленнее, но за неделю с миллионом документов тоже справлялся.
Если у Вас будет пара миллионов страниц, то ставьте Nutch или Dataparksearch. Для второго поставьте режим dbmode=cache. И будет все практически бесплатно. Так, например, на http://www.43n39e.ru/ проиндексировано 400 тысяч сайтов и миллион страниц. Возьмите сервер помощнее 2-4 процессора, быстрые SCSI диски запрягите в рейде и памяти гигабайт 6-8. И будет все очень быстро работать.
Вы просто не в курсе, это как раз очень непросто сделать. Потому что есть очень много подводных камней. Про которые гоп-начальники почти никогда не хотят думать заранее.
А так сделать что-нибудь, что будет ходить где-нибудь, обновлять абы как-нибудь и выдавать абы какие резульаты поиска, за абы какое время, это я очень быстро смогу сделать. А вот, чтобы винтов было поменьше, а машинка работала побыстрее - это уже требуется умственное усилие. Кстати говоря, на т ысячу сайтов много винтов не потребуется. Это примерно 1-3 млн. страниц.
Есть разные варианты от разработки движка совсем "с нуля" до использования чего-то готового. Расложите все по полочкам и посчитайте сколько получится денег
1) Разработка самого движка командой из нескольких (5-10)человек. Считайте год-полтора только на запуск. Где Вы хотите делать поисковик? Москва, Питер, Белоруссия? Учтите, что там, где водятся дешевые программисты, достаточно проблематично собрать команду. Москва - это 1.5-2 тысячи на нос в месяц. Пять человек, 10 тысяч зарплата черным налом. 20 тысяч - белым. 120-240 тысяч в год, если офис то еще тысяч 20-30 прибавьте на офис. Итого почти полмиллиона в год, если белая бухгалтерия.
2) Железки. Ну если поисковик региональный, то железок минимальное число. Наверное, 2-3 индексирующих машины, 4-10 ищущих и парочка морд. В любом случае, будет 10 максимум. По сравнению с зарплатой, ерунда.
3) Раскрутка.
Интернет. Покупка ссылок, заказные статьи и прочая. Наверное, это будет не сильно дешевле команды программистов.
ТВ. тысяч 50 в минуту рекламы. Если есть локальный канал, то дешевле.
Наружка (не знаю)
Вот и получается, что бюджет от нескольких сотен до нескольких миллионов.
Ох, блин, насмешили на тему подходящего человека :-)
Ну я говорю про индексацию при прочих равных.
Охотнее, значит, быстрее. У меня сейчас русский контент схватывает, а английский висит только в supplemental.
Никогда, не слышал про такое. Какие темы могут не попадать под песок?
Я знаю, что русский и не англоязычный контент гугль охотнее индексирует, в чем я, кстати, лишний раз и убеждаюсь.
А что значит невозможно: поясните, пожалуйста. Вот ведь пример работает. Нового сайта проиндексировано в количестве одной страницы, по старому ищется. Хоть капля, но ведь лучше чем ничего?
Старшие товарищи запирали меня в темной комнате и заставляли заниматься морфологией :-) Да, нужно больше склонять Яндекс.
Сейчас, кстати, страница хелпа в Яндексе тоже стала вменяемой. Но ни там, ни поэтой ссылочки нет нужной информации. Про-мейкер: в том-то и дело! Верно говорите про первые страницы. Такое ощущение, что на первую страницу это начало все влиять с лета.