itman

Рейтинг
64
Регистрация
26.05.2001

Вячеслав, не смешите аудиторию. У Гугла, как и у Яндекса есть ровно один успешный проект: поиск, точнее говоря различные варианты на тему поиска такие, как поиск в вебе, в новостях и картинках. Больше у Гугла успешных проектов, которые собирали бы глобально аудиторию и уж тем более приносили деньги - нет. Они хоть и анонсировали, что Google Video - 50% рынка, но я в это не верю, особенно по модулю того, что они YourTube купили.

По поводу поиска и MySQL уж позвольте всем сразу ответить (кстати сайт датапарка в это время просто временно лежал, вместе с большим куском Рунета):

Миллион страниц мне кажется - не очень много. Я лично так много Датапарком не индексировал, но не вижу причин почему это невозможно. Индекс там сделан более оптимально, чем в Mnogosearch в multiword или word моде, где он разложен по таблицам. К слову, в свое время у нас Mnogosearch сожрал и проиндексировал больше 2 млн страниц, другое дело, что время поиска там выросло до бесконечности и пришлось ему делать альтернативный индекс вроде того, что сейчас в датапарке.

На тему того, что тянет или нет MySQL база данных большие объемы: все зависит от того, как эффективно раскладывать данные. Какую часть класть в plain files, какую в таблицы. 1 ГЦ 512 ОЗУ и всего за сутки индексируется (без учета времени скачивания и парсинга HTML, локально) эквивалент 2.7 млн средних рунетов. Усопший Aspseek делал это помедленнее, но за неделю с миллионом документов тоже справлялся.

Смотрите, как поступает гугл, когда ему нужно вклиниться в новую нишу - он покупает социальные сети вместе со всеми их пользователями, увеличивая собственную аудиторию, которая этими сервисами пользуется, и не вкладывает ничего в раскрутку. Вот почему в большинстве случаев его проекты успешны.
CALM:
Уважаемые КАНДИДАТЫ НАУК, ну поконкретней если можно......

Если у Вас будет пара миллионов страниц, то ставьте Nutch или Dataparksearch. Для второго поставьте режим dbmode=cache. И будет все практически бесплатно. Так, например, на http://www.43n39e.ru/ проиндексировано 400 тысяч сайтов и миллион страниц. Возьмите сервер помощнее 2-4 процессора, быстрые SCSI диски запрягите в рейде и памяти гигабайт 6-8. И будет все очень быстро работать.

L78:
Не думайте что так сложно написать паука который бегает по инету и копирует тексты страничек, далее робот анализатор делает базы по словам (апы делает) а потом при запросе выдает сайты. Вы посчитайте сколько потребуется серверов (винтов) для этого и кто это будет ослуживать!

Вы просто не в курсе, это как раз очень непросто сделать. Потому что есть очень много подводных камней. Про которые гоп-начальники почти никогда не хотят думать заранее.

А так сделать что-нибудь, что будет ходить где-нибудь, обновлять абы как-нибудь и выдавать абы какие резульаты поиска, за абы какое время, это я очень быстро смогу сделать. А вот, чтобы винтов было поменьше, а машинка работала побыстрее - это уже требуется умственное усилие. Кстати говоря, на т ысячу сайтов много винтов не потребуется. Это примерно 1-3 млн. страниц.

Есть разные варианты от разработки движка совсем "с нуля" до использования чего-то готового. Расложите все по полочкам и посчитайте сколько получится денег

1) Разработка самого движка командой из нескольких (5-10)человек. Считайте год-полтора только на запуск. Где Вы хотите делать поисковик? Москва, Питер, Белоруссия? Учтите, что там, где водятся дешевые программисты, достаточно проблематично собрать команду. Москва - это 1.5-2 тысячи на нос в месяц. Пять человек, 10 тысяч зарплата черным налом. 20 тысяч - белым. 120-240 тысяч в год, если офис то еще тысяч 20-30 прибавьте на офис. Итого почти полмиллиона в год, если белая бухгалтерия.

2) Железки. Ну если поисковик региональный, то железок минимальное число. Наверное, 2-3 индексирующих машины, 4-10 ищущих и парочка морд. В любом случае, будет 10 максимум. По сравнению с зарплатой, ерунда.

3) Раскрутка.

Интернет. Покупка ссылок, заказные статьи и прочая. Наверное, это будет не сильно дешевле команды программистов.

ТВ. тысяч 50 в минуту рекламы. Если есть локальный канал, то дешевле.

Наружка (не знаю)

Вот и получается, что бюджет от нескольких сотен до нескольких миллионов.

Ох, блин, насмешили на тему подходящего человека :-)

Ну я говорю про индексацию при прочих равных.

Охотнее, значит, быстрее. У меня сейчас русский контент схватывает, а английский висит только в supplemental.

Pavlus:
itman, как понять "охотнее"? Проставь пару ссылок с ПР 6-7 и Google очень охотно будет шариться по плюбому сайту. Можно даже в wiki спамнуть в раздел с ПР=7, при этом до момента сноса ссылки проходит пол-часа а бот успевает перейти на сайт и активно кушать все подряд.

Никогда, не слышал про такое. Какие темы могут не попадать под песок?

Я знаю, что русский и не англоязычный контент гугль охотнее индексирует, в чем я, кстати, лишний раз и убеждаюсь.

Pavlus:
Есть темы в буржунете по которм песка нет впринципе ☝ Новые сайты не попадают под фильтр.

А что значит невозможно: поясните, пожалуйста. Вот ведь пример работает. Нового сайта проиндексировано в количестве одной страницы, по старому ищется. Хоть капля, но ведь лучше чем ничего?

Ergo:
Я вам всем расскажу большой секрет. Обойти песок невозможно! Его можно только переждать. Пробовал кучу методов.

Старшие товарищи запирали меня в темной комнате и заставляли заниматься морфологией :-) Да, нужно больше склонять Яндекс.

pro-maker:
Какой можно сделать практически-прикладной вывод? Необходимо больше заниматься морфологией, и особенно в ссылках. :)



Информацией Яндекс не делится. А какую информацию имели ввиду под "нужной", поскольку в ЖЖ и в хэлпе описаны запросы?

Сейчас, кстати, страница хелпа в Яндексе тоже стала вменяемой. Но ни там, ни поэтой ссылочки нет нужной информации. Про-мейкер: в том-то и дело! Верно говорите про первые страницы. Такое ощущение, что на первую страницу это начало все влиять с лета.

Всего: 444