Реально ли написать поисковик на php

K
На сайте с 24.03.2004
Offline
223
#61
di_max:
Бесплатный сыр - только в мышеловке. И то - только для второй мышки.😂
А уж хостер всегда найдет как денег содрать...;)

да 10$ за мегабит анлима в EU, а M9-IX в РФ за копейки забирать можно... следовательно считайте, что за 2k$ вам хватит мощи актуализировать рунет каждый день.

проверенная ддос защита (http://ddos-protection.ru) -> http://ddos-protection.ru (http://ddos-protection.ru), бесплатный тест, цена от размера атаки не зависит.
Слава Шевцов
На сайте с 23.07.2005
Offline
370
#62
di_max:
Если это адресовано мне...
1. Измерения проводились на 1000 разнородных страниц для получения среднего времени.
2. Скачка в потоках - ни кто не спорит. А парсить в потоках?😮
На многяйцевом оно конечно, можно...
Но эффективне, даже на 2-х яйцевом, в 2-х процессах.

Давайте считать реальную скорость обработки страниц. Обработка состоит из:

1. Выдирания всех ссылок с анкорами.

2. Выбрасывания всех тегов.

3. Обработки оставшегося текста стемкой.

4. Перевода стем-текста в последовательность чисел.

5. Подсчёт плотности слов.

6. Укладывание данных в базу.

7. Добавление данных о странице в индекс.

Для определённости, слова будут обрабатываться не морфологией, а стемкой. Это около 100 тыс. слов в секунду на моём ноуте (Селерон М). На хорошей странице в вебе обычно 2-3К слов. Это примерно 15К чистого текста или 25К html.

1. Выдирание всех ссылок с анкорами.

100 ссылок ~ 10^(-4) сек.

2. Выбрасывание всех тегов.

Один проход, так как надо выбросить скрипты и комментарии ~ 10^(-4) сек.

Один проход, так как теги ограничены символами '<' и '>' ~ 10^(-4) сек.

3. Обработка оставшегося текста стемкой.

3К слов / 100К слов/сек ~ 1/30 сек.

4. Перевод стем-текста в последовательность чисел.

Используем BerkeleyDB ~ 100К чтений слов в сек (база помещается в память) ~ 1/30 сек.

5. Подсчёт плотности слов.

Используем однозначный хешь ~ 10^(-4) сек

6. Укладывание данных в базу.

Используем BerkeleyDB ~ 60 Мб/сек ~ 3*10^(-4) сек

7. Добавление данных о странице в индекс.

Однопроходный алгоритм, зависит от размера индекса и определяется скоростью работы с жёстким диском ~ 60 Мб/сек. Подсчитать на пальцах трудно, так как здесь всё зависит от способа хранения данных, количества памяти и режима пакетной обработки.

Итого, без пункта 7, скорость обработки страницы ~ 1/15 сек - вот минимальная скорость обработки типичных страниц на моём бедном селероне. Это раз в 50 быстрее, чем у Ваших программистов.

Неизменность точки зрения неизменно порождает иллюзию понимания.
di_max
На сайте с 27.12.2006
Offline
262
#63
kostich:
да 10$ за мегабит анлима в EU, а M9-IX в РФ за копейки забирать можно... следовательно считайте, что за 2k$ вам хватит мощи актуализировать рунет каждый день.

Сии цифры - ни чего не говорят...

Так, как нужно оценивать полную себестоимось и прибыльность проекта, в целом.

Согласитесь, что для стартап-а, вложения в виде 2-5k$ в месяц возможны только при наличии хорошего инвестора...

А себестоимость в 2-5k$ при соблюдении нормы прибыли, дело реальное.

Но... Мы уже уклонились немного в другую сторону.;)

// Все наши проблемы от нашего не знания...
Слава Шевцов
На сайте с 23.07.2005
Offline
370
#64
di_max:
1. Плиз, ссылку на такие подробности о Яндексе...
2. Обгонять Яндекс и не собирались.😂

Количество страниц в индексе есть у них на главной странице. информация о количестве серверов была в публичном доступе и может уже устарела. Причём подлном количестве серверов: с учётом краулеров, народ.ру, поисковых серверов и пр. барахла.

di_max
На сайте с 27.12.2006
Offline
262
#65
Слава Шевцов:
информация о количестве серверов была в публичном доступе и может уже устарела.

в 2002 вся ПС состояла из 44 серверов...

По этому меня и удивили приведенные Вами цифры.

K
На сайте с 24.03.2004
Offline
223
#66
di_max:

Согласитесь, что для стартап-а, вложения в виде 2-5k$ в месяц возможны только при наличии хорошего инвестора...

оффтопить так оффтопить... для серьезных инвесторов это копейки.

ps. в пробные шары мы уже вложили больше...

pps. /ru/forum/164111 - по .ру мы каждый день актуализируем... глубина просмотра с каждым днем все больше и больше.

di_max
На сайте с 27.12.2006
Offline
262
#67
kostich:
оффтопить так оффтопить... для серьезных инвесторов это копейки.

50% отстегните, а...;)

Слава Шевцов
На сайте с 23.07.2005
Offline
370
#68
kostich:
оффтопить так оффтопить... для серьезных инвесторов это копейки.

Это $25-50К в год или зарплата двух-трёх менеджеров по продаже рекламы. За них придётся отдать хорошую такую долю в стартапе. И это только за трафик. Имхо, если уж хочется инвесторов, то трафик должен оказаться бесплатным или недорогим - чтобы показать, как предприниматель умеет экономить деньги инвестора.

K
На сайте с 24.03.2004
Offline
223
#69
Слава Шевцов:
Это $25-50К в год или зарплата двух-трёх менеджеров по продаже рекламы. За них придётся отдать хорошую такую долю в стартапе. И это только за трафик. Имхо, если уж хочется инвесторов, то трафик должен оказаться бесплатным или недорогим - чтобы показать, как предприниматель умеет экономить деньги инвестора.

Мы о чем вообще? Девелопинг на пехапе дешевле девелопинга на Си в разы, в т.ч. отладка, тестирование и т.д. Представляете сколько крови пьют люди, когда их тыкаешь в gcc, gdb, способы компиляции для отладки и т.д... когда открываешь им глаза на valgrind, трейсеры... крови они пьют тогда когда начинают считать себя мегаумными и сваливают с повыщением по ЗП в другую контору. Взрастил блин поколение... все... зарекся брать только со своей исторической родины.

Нэт! Нэт! и еще раз Нэт!

Софт должны писать на пехапе с помощью тупых обезъян... лучше мы потом поставим кластер, распредлим все на балансерах и зарядим ферму из надцати гигов с memcached... тогда инвестор будет доволен, т.к. большая часть бобла ушла в железо, которое, если правильно выбиралось, очень даже ликвидное. А гавноманагеры пошли вон, т.к. продавцы должны сидеть на проценте с продаж и гавнооткатах.

С точки зрения инвестиций фонд ЗП это выкинутые деньги... всю контору делим на тех кто зарабатывает и на тех кто просиживает штаны... а пехапешники будут просиживать их за копейки! Так шо написать поисковик на пехапе более чем реально.

ps. Удачи.

Слава Шевцов
На сайте с 23.07.2005
Offline
370
#70
kostich:
Мы о чем вообще? Девелопинг на пехапе дешевле девелопинга на Си в разы, в т.ч. отладка, тестирование и т.д.

Дешевле. Однозначно. Пока не встают сложные задачи, когда знания и интеллект стоят больше умения работать на том или ином языке.

kostich:
Представляете сколько крови пьют люди, когда их тыкаешь в gcc, gdb, способы компиляции для отладки и т.д... когда открываешь им глаза на valgrind, трейсеры... крови они пьют тогда когда начинают считать себя мегаумными и сваливают с повыщением по ЗП в другую контору. Взрастил блин поколение... все... зарекся брать только со своей исторической родины.

Мне ближе подход Google и Яндекса: брать людей умнее себя и растить команду гигантов. А команду карликов, где каждый нанимает себе ещё менее умного, мне не нужно.

kostich:
Софт должны писать на пехапе с помощью тупых обезъян... лучше мы потом поставим кластер, распредлим все на балансерах и зарядим ферму из надцати гигов с memcached... тогда инвестор будет доволен, т.к. большая часть бобла ушла в железо, которое, если правильно выбиралось, очень даже ликвидное.

Как Вы планируете кешировать редкие запросы? Я анализировал запросы Rambler. Там на фразы с частотой более 3-х запросов в месяц (250К фраз) приходится только 25% всех запросов пользователей. Никакие memcached не помогут. Запрос должен отдаваться менее, чем за 3 секунды. Особенность психологии человека. На PHP для 200К документов это очень трудно будет сделать из-за сортировок, скорости доступа к MySQL, общей скорости выполнения большого количества операторов.

kostich:
А гавноманагеры пошли вон, т.к. продавцы должны сидеть на проценте с продаж и гавнооткатах.

Должны. Но это теже самые 3-5К в месяц, только они по-другому начисляются. Те же яйца, только в профиль.

kostich:
С точки зрения инвестиций фонд ЗП это выкинутые деньги... всю контору делим на тех кто зарабатывает и на тех кто просиживает штаны... а пехапешники будут просиживать их за копейки! Так шо написать поисковик на пехапе более чем реально.

Зарплата отличается от железа только тем, что её нельзя перезаложить. В остальном, это такие же расходы. В этой части, в основном с Вами согласен. С единственной оговоркой: от программистов надо избавляться. Например, доводя сервис до конца и выводя их на новый проект. В таком случае они будут дешевле железа.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий