нет, самому интересно стало
Главное упущение , а кто сказал что он ищет "И" ? Я заметил что яндекс часто знает сколько раз повторяется слово , но на самом деле не ищет результаты . Т.е. например выдает найдено 5000 сайтов , но после первой сотни говорит - все .
А качество поиска после такого индексирования ? Поисковик это не только циферки производительности.
Эээ, вообщето стандартный ATA винт может шуршать до 50 мб/сек, или 500 мегабит ... Все зависит то чем вы напрягете и как будете выкладывать на него. При том же железе например при дефрагментированном NTFS скорость может падать до 1-2 мб/сек. Я домашние видеозаписи монтирую сам , поэтому знаю как винты могут и писать и как захлебываться при вроде бы нормальных обстоятельсвах.
И непонятно что иелось ввиду под понятием индексирования, без конкретной структуры хранения обсуждение не имеет смысла. Крупные поисковики сменяют базы данных версиями , а не индексируют мнгновенно, такие как гугль я так подозреваю комбинируют технологию с хот дополнениями между версиями.
лично я в шоке , мой сайт пропал, ну уже чистый как стеклышко , даже обмена ссылками не было . При этом я так понял что боролись с линкатором а прибили много крупных сайтов. И все равно у линкатора есть ТИЦ . Видимо новому покалению программистов яндекса ума не хватает, или не разобрались с тем что было сделано до них.
Это не философия - это опыт эксплуатации. Я многое делаю по другому чем кажеться что надо так. Проходит время и понимаешь как проще съэкономить и время и деньги и нервы.
Зачем прописывать правила для роботов ? Реальные поисковики пускай скачивают, мне нужен с них траффик. А вредоносные штуки игнорируют robots.txt . Даже такие примитивные как teleport pro. Проще по IP забанить , даже если весь спул вместе с этим IP , пока не попустит как минимум.
Вообще у меня десяток сайтов. Хостинг за границей , имена украинские.
На самом большом общий размер файлов на выдачу примерно 0.5 Гб , если кто-то дерет целиком то я уже смотрю кто это делает и зачем ему понадобилось это. Не то чтоб жлобство , просто есть народ который прикалывается тем что есть мощный канал и дерет все что попало. Давеча один сайт довели до bandwith limit exceed , пришлось переаспределять траффик между сайтами, а пару часов сайт пролежал из-за этого.
так вы можете быть уже в бане на многих сайтах, не всем нравятся моззилы вытягивающие пол-сайта . Я таких обычно баню.
При старте перл вначале загружается сам , дальше он начинает грузить кучу библиотек , это занимает и время и память. Если вы сделаете многопотоковый код - проблем нет, будет работать одна копия. Второй вариант - использовать mod_perl и грузить из-под апача , в этом случае апач загрузит одну копию перла вместе с библиотеками и будет использовать ее для всех ваших приложений.
Что касается PHP , он может быть загружен в память апача как в режиме mod_perl и будет использоватьсмя одна копия , или стартовать как отдельный процесс , будет жрать память под каждую копию . Многозадачность у него слабее чем в перле , поэтому наверное более правильно запускать много копий из-под апача.
В данном случае апач нужен как многотоковый разделитель а не как веб сервер.
Да и нужно учитывать что я сторонник того что когда не хватает ресурсов нужно ставить сервер мощнее. При условии конечно что все написано хотя бы на среднеплохом уровне.