tano

Рейтинг
2
Регистрация
28.11.2005
.BY
Asher:
А смысл?
Хоть через ICANN брать, все равно в итоге домены .BY контролирует одна и та же организация.

смысл - не ехать лично в Минск

.BY
beroot:
Домен 90$.

Еще и лично являться к ним обязательно. :)

а если через реселлеров брать ?

например на speednames есть .by

это похоже на глюк гугла

глянь например http://www.google.ru/search?q=site%3Acom.de

itman:
15*300 * 10^6 = 4.5 * 10^9 все-таки не 13 гигов или я что-то не понимаю? :-)

да, словарь меньше 13Gb.

цифра 13Gb - это я поправил Kryukov, который оценивал размер словаря как раз по максимально возможной длине длине, а не по средней и получил 1Gb

itman:
Ууупс... Вы путаетесь в показаниях, если максимальная длина слова 15, то размер данных ну уж никак не 13 гигов. Опять-таки, какая средня длина, порядка 10 я думаю?

максимальная - 128, средняя при текущем состоянии базы - 15

Interitus:
tano, а какова примерно средняя длина слова?

сейчас 15, может со временем расти, до 20-30

128 - это максимально возможная длина

Interitus:
И каков допустимый максимальный объем всего индекса?

Желательно - данные+индекс уложить в 2 размера данных в plain формате, можно превысить. Решения с 128*размер данных не проходят.

Kryukov:
Если это намек на меня, то я попросил бы читать внимательнее. Привожу фрагмент своего постинга:

нет, я о том что обсуждали в этом топике до меня

itman:
1. Смотря что считать быстро.
2. Какой размер оперативной памяти.

ну скажем 20ms на Dual Opteron c 4Gb

itman:

3. Какие требования к wildcard, типичные, итд. Знаете ли, ни один алгоритм
по wildcard а.*б.*в.*г.*...я где все буквы русского алфавита и 33 звездочек быстро искать не будут.

если больше двух * - можно во время не вписываться.

itman:

4. Ну и потом, посчитайте, что если на реализацию такого алгоритма затратить 2 недели, неделю-другую на отладку довдоку (а может даже больше) Ваша цена в 500 баксов выглядит совсем смешной.
5. подумал, дописал, кстати, если это какое-то критичное приложение, то можно написать распределенную искалку.
.

да там чуть выше спецы такой алгоритм тривиальным обозвали :)

и уже реализованным во всех поисковиках

а как до дела дошло - ёк :)

Kryukov:
Ну хорошо :) ну а на шаблоне типа "*" для поиска "бабушка" наверное будет еще хуже :) . Вы же всетаки что-то знаете о том, что ищите. Если плохо знаете - то уж
grep -i [regexp] везде

для * даже grep не нужен - head достаточно

а grep - это и есть тривиальное решение за 3000 - выделенный сервер поставить :)

Kryukov:

Кстати, 100 млн массив слов по 128 символов - это 1GB (в современных условиях в мозги влезет вместе с доп. информацией)

13Gb

Kryukov:
Ой-й-й-й, тут кажись граничные условия не ставили, а вдруг челу был нужен полноценный regexp - тады только перебор :). Если же просто найти все с произвольным окончанием - то задача для студента 2 курса. Главное городить самому особо ничего не надо, берем BerkeleyDB v.1.85 (она не коммерческая), строим BTREE. Для поиска используем установку курсора на первое соответствующее, далее перебором со сравнением на превышение. Таким образом еще в 1982 году работал SMTP агент, под названием IDA Sendmail (почти обычный сендмаил, но с использованием шаблонов для подмены адресов и прочими "дырявыми" бантиками) Легкий тормоз будет обнаружен на шаблонах типа "a*", в остальном - свистит как пулемет. :)
Если это то, что нада - готов получить свои $500 с фрагментом реализации из рамблера образца 1996г.

а на шаблонах типа "*ll*wo*" для поиска "helloworld" какой тормоз будет ? :)

реально через suffix array решается, может что-то более эффективное есть, я не знаю.

12
Всего: 13