alyak

Рейтинг
31
Регистрация
02.10.2004

нет, самому интересно стало

Главное упущение , а кто сказал что он ищет "И" ? Я заметил что яндекс часто знает сколько раз повторяется слово , но на самом деле не ищет результаты . Т.е. например выдает найдено 5000 сайтов , но после первой сотни говорит - все .

W.Ed.:
Хорошо ☝, завтра перепишу индексатор и сравним.🙄

А качество поиска после такого индексирования ? Поисковик это не только циферки производительности.

Zute:
У того, у кого винт шустрее писать будет :)

Эээ, вообщето стандартный ATA винт может шуршать до 50 мб/сек, или 500 мегабит ... Все зависит то чем вы напрягете и как будете выкладывать на него. При том же железе например при дефрагментированном NTFS скорость может падать до 1-2 мб/сек. Я домашние видеозаписи монтирую сам , поэтому знаю как винты могут и писать и как захлебываться при вроде бы нормальных обстоятельсвах.

И непонятно что иелось ввиду под понятием индексирования, без конкретной структуры хранения обсуждение не имеет смысла. Крупные поисковики сменяют базы данных версиями , а не индексируют мнгновенно, такие как гугль я так подозреваю комбинируют технологию с хот дополнениями между версиями.

лично я в шоке , мой сайт пропал, ну уже чистый как стеклышко , даже обмена ссылками не было . При этом я так понял что боролись с линкатором а прибили много крупных сайтов. И все равно у линкатора есть ТИЦ . Видимо новому покалению программистов яндекса ума не хватает, или не разобрались с тем что было сделано до них.

lagif:
alyak, вообще-то, правила для роботов - это хороший тон... ну да, у каждого своя философия.

Это не философия - это опыт эксплуатации. Я многое делаю по другому чем кажеться что надо так. Проходит время и понимаешь как проще съэкономить и время и деньги и нервы.

lagif:
alyak, у вас robots.txt есть? пропишите правила для роботов... :) да и у нас самих есть лимит на размер и глубину чтения контента с каждого сайта.

Зачем прописывать правила для роботов ? Реальные поисковики пускай скачивают, мне нужен с них траффик. А вредоносные штуки игнорируют robots.txt . Даже такие примитивные как teleport pro. Проще по IP забанить , даже если весь спул вместе с этим IP , пока не попустит как минимум.

lagif:
alyak, бот был раньше под спец. именем. Пока разницы я не вижу. А ваш сайт в Украине?

Вообще у меня десяток сайтов. Хостинг за границей , имена украинские.

На самом большом общий размер файлов на выдачу примерно 0.5 Гб , если кто-то дерет целиком то я уже смотрю кто это делает и зачем ему понадобилось это. Не то чтоб жлобство , просто есть народ который прикалывается тем что есть мощный канал и дерет все что попало. Давеча один сайт довели до bandwith limit exceed , пришлось переаспределять траффик между сайтами, а пару часов сайт пролежал из-за этого.

так вы можете быть уже в бане на многих сайтах, не всем нравятся моззилы вытягивающие пол-сайта . Я таких обычно баню.

lagif:

alyak, и правда, зачем апач? Чем не нравится голый HTTP-запрос? А кодировки - почти все можно iconv и прочими enca'ми определить и перекодировать... то, что там пишут в мета-заголовках пользователи, для спайдера, на мой взгляд, неактуально.

При старте перл вначале загружается сам , дальше он начинает грузить кучу библиотек , это занимает и время и память. Если вы сделаете многопотоковый код - проблем нет, будет работать одна копия. Второй вариант - использовать mod_perl и грузить из-под апача , в этом случае апач загрузит одну копию перла вместе с библиотеками и будет использовать ее для всех ваших приложений.

Что касается PHP , он может быть загружен в память апача как в режиме mod_perl и будет использоватьсмя одна копия , или стартовать как отдельный процесс , будет жрать память под каждую копию . Многозадачность у него слабее чем в перле , поэтому наверное более правильно запускать много копий из-под апача.

В данном случае апач нужен как многотоковый разделитель а не как веб сервер.

Да и нужно учитывать что я сторонник того что когда не хватает ресурсов нужно ставить сервер мощнее. При условии конечно что все написано хотя бы на среднеплохом уровне.

Всего: 104