Напишите компактный алгоритм, который бы производилПРЕОБРАЗОВАНИЕ одного в другое - Поисковые технологии

Размер словаря

ЗодчийТеней · 2006-02-16T21:32:18.0000000Z

У яндекса на сайте указаны указано: «В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро.» Как можно в такой объем запихнуть целый словарь да еще и с морфологией? Кто-то может прокомментировать?

119

!Иван FXS

17 февраля 2006, 22:29

#61

ЗодчийТеней:
в точьку, с моей точьки зрения, можете к єтому что-то добавить?

- что тут добавишь ... ИМХО, это - самая сложная из перечисленных мною (навскидку) задач.

То есть у Вас обязательно должно быть слово с кодом 1, слово с кодом 2 и т.д.?

А задачу перехода от словоформы к "базовому" слову - этот же словарь должен обслуживать, видимо?

Яндекс цепляет в конец Добавьте налоговую информацию Почему в Яндексе Вебмастере

11

ЗодчийТеней

17 февраля 2006, 22:32

#62

itman:
Изначально был вопрос такой: какой смысл сжимать данные, если и так все хорошо. Я на него ответил, чтобы больше индекса влезало в кеш

прокомментируйте пожалуйста, возможно я что-то упустил? но мне кажется что первоначальный вопросы был как минимизировать объем данных для размещения их в ОЗУ без упоминания о сжатии оных

насчет кеша, хотелосьбы тоже услышат более подробное объяснение

остальное и так оопнятно даже такому новичьку как я ;-)

Я, однако, не скажу, что все иллюзии или бред нашего ума нужно называть сумасшествием. Эразм Роттердамский "Похвала глупости".

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

17 февраля 2006, 22:35

#63

Зодчий, но как можно разместить больше даннных в ОЗУ без сжатия? ОЗУ же оно же не резиновое. Процесс "умещения" большего количества данных в ОЗУ и называется сжатием.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

389

Artisan

17 февраля 2006, 22:36

#64

ЗодчийТеней:
можете к єтому что-то добавить?

Я могу но Вы не очень внимательны, ...

www.leak.info / изучайте даром ВХОДЯЩИЕ ЛИНКИ конкурентов и забытых доменов. /// Есть хороший СПОСОБ ПОДРАБОТКИ для хороших людей, обучение даром, вопросы в личку.

11

ЗодчийТеней

17 февраля 2006, 22:36

#65

!Иван FXS:
- что тут добавишь ... ИМХО, это - самая сложная из перечисленных мною (навскидку) задач.
То есть у Вас обязательно должно быть слово с кодом 1, слово с кодом 2 и т.д.?

А задачу перехода от словоформы к "базовому" слову - этот же словарь должен обслуживать, видимо?

если я вас правильно понял то не совсем так, на выходе, данные которые ищутся уже по индексу, должен быть идентификатор базового слова, и к нему идентификаторы дополнений к оному которые и формируют само искомое слово соответственно и желательно все допустимые для него словоформы

include в php большого Падает memcached Google: длина URL не

119

!Иван FXS

17 февраля 2006, 22:38

#66

itman:
Задача стоит хотя бы просто этот весь массив словоформ закодировать. Ну и естественно иметь возможность чекать если словоформа в словаре.

- если у нас есть список словоформ - где угодно: хоть в голове, хоть на бумаге, хоть в файле - и мы говорим, что "а" имеет номер 1, то ... вот они, собственно, уже и закодированы все ... однозначно.

Задача, наверное, состоит в том, чтобы написать компактный АЛГОРИТМ, который бы производил ПРЕОБРАЗОВАНИЕ одного в другое ... Чего, кстати, одного - во что другое: слова - в его номер, или номера - в его слово?

11

ЗодчийТеней

17 февраля 2006, 22:41

#67

itman:
Процесс "умещения" большего количества данных в ОЗУ и называется сжатием.

дык это и ежу понятно. Положим, что на данный момент я располагаю 4 Гб озу в которые вполне свободно могу впихнуть все свои 1,5 Гб распакованных данных, но ведь это не выход? данные будут расти, а объем озу конечен в отличие от объема пзу, так зачем я все доступные данные буду грузить в озу? я пытаюсь ограничиться лишь словарем на основании которого получу идентификаторы всех возможных словоформ из поискового запроса

Artisan:
Я могу но Вы не очень внимательны, ...

тогда акцентируйте наконец внимание на своей мысли, я всего лишь человек, к тому же человек который уже пятые сутки не спит, я могу и упустить что то

Яндекс кобласит Есть прямые доказательства нежелательности Яндекс закрывает сервис блогов

119

!Иван FXS

17 февраля 2006, 22:42

#68

ЗодчийТеней:
... идентификатор базового слова, и к нему идентификаторы дополнений к оному которые ...

- ну так Вы же - на ходу - задачу усложняете! Чем сложнее задача, те сложнее написать для нее компактный алгоритм!

(Под алгоритмом я понимаю тройку: непосредственно алгоритм + структура данных + сами данные (словарь).)

11

ЗодчийТеней

17 февраля 2006, 22:46

#69

!Иван FXS:
Чем сложнее задача, те сложнее написать для нее компактный алгоритм!

я же не прошу писать алгоритм :-)

я лишь интересуюсь мнением людей, как это лучше сделать, какие кто предложит схемы реализации, конечный выбор и соответственно программную реализацию я все равно выберу и буду делать сам

для упрощения обсуждаемой задачи давайте остановимся на получении на выходе идентификатора основы слова, идентификаторов приставки и окончания, это если брать грубую модель

389

Artisan

17 февраля 2006, 22:49

#70

ЗодчийТеней:
акцентируйте наконец внимание на своей мысли,
я всего лишь человек который уже пятые сутки не спит,

Выспитесь и внимательно прочитайте эту тему, ...

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Все что нужно знать о DDоS-атаках грамотному менеджеру

Размер словаря