Если в словаре после, то при переходе от первого ко второму нужно хранить - Поисковые технологии

Размер словаря

ЗодчийТеней · 2006-02-16T21:32:18.0000000Z

У яндекса на сайте указаны указано: «В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро.» Как можно в такой объем запихнуть целый словарь да еще и с морфологией? Кто-то может прокомментировать?

I

64

itman

17 февраля 2006, 22:50

#71

ой, откуда-то появились номера слов, я что-то пропустил. нет, лично я имел в виду следующее. анализатор слов а-ля программка Кевы на linguist.nm.ru. то есть если есть набор словооснов, то нужно его так компактно представить в памяти, чтобы по этому компактному представлению и произвольному входному слову определять может ли это слово быть сгенерировано на основе данных словооснов. как правило приятным побочным эффектом такой проверки может (хотя это не обязательно) могут являться грамматические харак-ки слова: часть речи, род, падеж число, итд.... Но в базовом варианте меня устроит и спеллчекер с компактным представлением словаря. Вот, надеюсь, что понятно изложил свои мысли!

!Иван FXS:
- если у нас есть список словоформ - где угодно: хоть в голове, хоть на бумаге, хоть в файле - и мы говорим, что "а" имеет номер 1, то ... вот они, собственно, уже и закодированы все ... однозначно.

Задача, наверное, состоит в том, чтобы написать компактный АЛГОРИТМ, который бы производил ПРЕОБРАЗОВАНИЕ одного в другое ... Чего, кстати, одного - во что другое: слова - в его номер, или номера - в его слово?

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

11

ЗодчийТеней

17 февраля 2006, 22:51

#72

Artisan:
Выспитесь а потом внимательно прочитайте эту тему, ...

это увы малорельно :-(, думаете что сегодня человек при здравом уме затеит эксперемент с созданием поискового сервиса?

Я, однако, не скажу, что все иллюзии или бред нашего ума нужно называть сумасшествием. Эразм Роттердамский "Похвала глупости".

I

64

itman

17 февраля 2006, 22:52

#73

Вот и кстати, тов Зодчий на тему компактного представления словаря. СЕЙЧАС эта задача уже не актуальна, в отличие от компактного представления инвертированного индекса. Потому что словарь по сравнению с этим самым индексом мааахонький.

ЗодчийТеней:
это увы малорельно :-(, думаете что сегодня человек при здравом уме затеит эксперемент с созданием поискового сервиса?

Почему же, я собираюсь заняться. Причем даже не одним, но узкоспецилизированными. И при наличии основной работы. Дык спать семь часов в день все равно надо, башка иначе перестанет варить. И таски, которые на свежую голову занимают час времени легко могут потребовать месяца усилий.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

11

ЗодчийТеней

17 февраля 2006, 22:54

#74

itman:
чтобы по этому компактному представлению и произвольному входному слову определять может ли это слово быть сгенерировано на основе данных словооснов. как правило приятным побочным эффектом такой проверки может (хотя это не обязательно) могут являться грамматические харак-ки слова: часть речи, род, падеж число, итд....

а что вам мешает по этим данным вычислить идентификатор слова? он ведь вам всеравно понадобится, так почему его не заложить сразу в алгоритм?

I

64

itman

17 февраля 2006, 22:55

#75

и морфология есть готовая. у Кевы можно купить. на macrocosm.narod.ru даже бесплатно скачать под винды и линукс.

ЗодчийТеней:
а что вам мешает по этим данным вычислить идентификатор слова? он ведь вам всеравно понадобится, так почему его не заложить сразу в алгоритм?

есть два варианта

1) хранить, тогда прощай компактное представление. точнее не прощай, но это доп расходны на хранение.

2) генерировать из слова уникальные id. но я не знаю алгоритма, который гарантировал бы уникальность такого id.

Windows хостинг с RDP Сколько прокси (AS сеток) Банк России отозвал лицензию

11

ЗодчийТеней

17 февраля 2006, 23:00

#76

itman:
Вот и кстати, тов Зодчий на тему компактного представления словаря. СЕЙЧАС эта задача уже не актуальна, в отличие от компактного представления инвертированного индекса. Потому что словарь по сравнению с этим самым индексом мааахонький.

насчет индекса согласен, но насчет компактности словаря не согласен, при работе с озу вы всегда получите большую скорость, поэтому загрузив все исходные данные в озу вы получите неплохой прирост производительности

itman:
Дык спать семь часов в день все равно надо, башка иначе перестанет варить.

всегда есть вариации, у каждого свои нюансы

Как раскрутить сайт? Яндекс кобласит Digital Caramel - помогаем

390

Artisan

17 февраля 2006, 23:01

#77

itman:
есть два варианта

Оба утверждения неправильные, ...

█ www.leak.info / изучайте даром входящие указатели конкурентов и забытых доменов. █ Есть хороший способ подработки для умных людей, обучение даром, вопросы в личку.

11

ЗодчийТеней

17 февраля 2006, 23:05

#78

Artisan:
Оба утверждения неправильные, ...

вы опять говорите "а" но не говорите "б", думаю что из вас вышелбы неплохой адвокат

I

64

itman

17 февраля 2006, 23:11

#79

Artisan:
Оба утверждения неправильные, ...

ок тогда опровергните их.

119

!Иван FXS

17 февраля 2006, 23:12

#80

itman:
... на тему компактного представления словаря...

... понятна одна банальная вещь: хранить нужно инкрементально, то есть6

- если в словаре после "дом" идет "дон", то при переходе от первого ко второму нужно хранить только "н";

- а если после "ключик" идет "ключом", то при переходе от первого ко второму нужно хранить только "ом";

- а если после "ключа" идет "ключик", то при переходе от первого ко второму нужно хранить "ик" и - в какой-то нотации - указание на то, что одна буква заменяется на две.

Морфологический разбор слова - на приставку, корень и окончание - я обсуждать не берусь.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Переиграть и победить: как анализировать конкурентов для продвижения сайта

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Размер словаря