Комментарии - ЗодчийТеней - Профиль вебмастера - Форум об интернет-маркетинге

Размер словаря

17 февраля 2006, 22:36

!Иван FXS:
- что тут добавишь ... ИМХО, это - самая сложная из перечисленных мною (навскидку) задач.
То есть у Вас обязательно должно быть слово с кодом 1, слово с кодом 2 и т.д.?

А задачу перехода от словоформы к "базовому" слову - этот же словарь должен обслуживать, видимо?

если я вас правильно понял то не совсем так, на выходе, данные которые ищутся уже по индексу, должен быть идентификатор базового слова, и к нему идентификаторы дополнений к оному которые и формируют само искомое слово соответственно и желательно все допустимые для него словоформы

Размер словаря

17 февраля 2006, 22:32

itman:
Изначально был вопрос такой: какой смысл сжимать данные, если и так все хорошо. Я на него ответил, чтобы больше индекса влезало в кеш

прокомментируйте пожалуйста, возможно я что-то упустил? но мне кажется что первоначальный вопросы был как минимизировать объем данных для размещения их в ОЗУ без упоминания о сжатии оных

насчет кеша, хотелосьбы тоже услышат более подробное объяснение

остальное и так оопнятно даже такому новичьку как я ;-)

Размер словаря

17 февраля 2006, 22:28

Artisan:
Что сжимается и какой алгоритм используется?

сжимается исключительно текстовый контент страниц, покачьто, алгоритм обычьный гзип средствами пхп, на нем собственно сейчас и пишу, к другим языкам уже очень давно не прибегал, пока ставлю за цель лишь создание рабочего прототипа поисковой машины и не вижу смысла "заворачиваться" с ними, что касается индексов то они покачьто хранятся в базе данных а не в файлах, хотя сейчас хочу попробовать параллельно базу и файлы для сравнения скорости работы

Размер словаря

17 февраля 2006, 22:18

!Иван FXS:
вычисление уникального порядкового номера (кода, идента) слова в упорядоченном (по алфавиту) полном списке

в точьку, с моей точьки зрения, можете к єтому что-то добавить?

Размер словаря

17 февраля 2006, 22:12

itman:
То есть вместо одной машины придется поставить 3 или 4, чтобы искалось быстро.

а какой смысл при гиге обробатыаемых данных ставит несколько машин? это уже не рентабельно

насчет 40% процентов индекса от общего объема вполне согласен, но я только лиш учусь и тестирую знания полученные в этой области, оптимизацию данных на пзу я пока не ставил как задачу, нет проблем с местом под данные, при доступном объеме в 200Гб и имеющихся 1Гб согласитесь это не проблема, хотя реальный размер текстовых данных всеголиш 42 Мб, сжатие на пзу я всеже использую;-)

Поиск в фрэймах

17 февраля 2006, 22:05

боюсь что каждый фрейм воспринимается поисковиком как отдельный документ, поэтому вероятность нулевая

з.ы. почему не откажитесь от фреймов, это технология устарела, в крайнем случае используйте дивы, что-то вроде <div style="overflow: auto;"> такая конструкиця воспринимается как единый с родителем документ и дает почьти все тежи возможност и что и фрейм

Размер словаря

17 февраля 2006, 21:56

itman:
инвертированный индекс и, вообще, данные, не влезающие в память, есть

ну это вы загнули, я сейчас индексирую украину, это порядка 13 тысяч уникальных доменов (покачь то исключительно домены физически расположенные на украине) это порядка 350000 документов (я не претендую здесь на объективность, это лишь мои личные данные) объем обратного индекса составляет примерно 57% от общего объема данных, а вы говорите в память его, где ж найти сервер который столько оперативки будет поддерживать, и сколько при этом он будет стоить?

itman:
Зодчий, ну какая-то безыдейная тема получилась

готов поспорить, я например для себя кое что вынес из этой темы

Размер словаря

17 февраля 2006, 21:32

itman:
Сейчас смысла в этом нет, а раньше, когда было 640 кб озу был/

но речь то идет именно о сейчас, не о вчера и не о завтра, к тому же вчера считался каждый байт ОЗУ и грузит туда лишние данные было просто глупостью, поэтому даже с оглядкой на вчера я остаюсь при своем мнение, запакованным данным нечего делать в ОЗУ, загрузив туда запакованные данные вам также надо будет загрузить и алгоритм компресии/декомпресии или юзать его с жесткого диска, ваш выигрыш в производительности и в том и в ином случае стремится к нулю

Artisan:
Паковать надо совсем не так, ...

еще раз повторюсь, ПОЖАЛУЙСТА, не можете обосновать свои слова, не бросайтесь ими

Размер словаря

17 февраля 2006, 21:12

ребята, давайте жить дружно, еще раз повторюсь, в первоначальной постановке вопроса речь шла о загрузке словаря в ОЗУ, я со совей колокольни, не вижу смысла загружать в ОЗУ запакованные данные, и по прежнему думаю что все упирается в алгоритм формирования слов из некоего абстрактного списка основ, то что я вижу на данный момент лишь подтверждает мою уверенность в том что эти данные можно втиснуть в пресловутые 300Кб

Размер словаря

17 февраля 2006, 20:09

itman,

itman:
Я бы Вас тоже попросил не хамить Артизану. Все-таки у нас тут научная дискуссия, а не спарринг

любая дискуссия это своего рода спарринг, если я кому-то где-то нахамил, или кого-то где-то обидел, укажите мне на это и я извинюсь, если был не прав, покато я прошу лишь прошу обоснованные ответы, не словами по типу "я это сделал", я много чего сделал в свои 27, но это мало кого интересует, я прошу лишь обосновывать свои ответы

Дзен реализовал для авторов возможность вывода денег через СПБ

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

ЗодчийТеней