Комментарии - itman - Профиль вебмастера - Форум об интернет-маркетинге

20 февраля 2006, 06:25

а) да, но мне это кажется неправильным разделом форума.

б) поставить норальный пакет статистики, который показывает слова запроса с учетом регистра

barca1:
во-во, я ж не случайно тему-тонаписал наверное?

20 февраля 2006, 04:36

WildOne:
2. ....
3. Ранжирование результатов поиска не зависит от регистра.
4. ....

это зависит от поисковика, в Яндексе, например, регистр просто влияет на резульатат выборки, надо думать, что и на ранжирование тоже.

см.

http://www.yandex.ru/yandsearch?text=%F2%E0%F0%F2%E8%ED%EA%E0&stype=www

http://www.yandex.ru/yandsearch?text=%D2%E0%F0%F2%E8%ED%EA%E0&stype=www

Размер словаря

18 февраля 2006, 09:34

ok, если Вам так все понятно, то может объяснить навскидку

а) что такое блочно-слотовая организация данных? ссылки нет, а я так не и не смог понять, что в этом термине от блочности, а что от слотовости

б) что такое "и специальное представление текстов основы. Это представление заменяет текст основы на сответствующий ему бит из хэш-таблицы большого размера." надо думать, что это специальное представление - просто хеш-функция, но почему так запутанно написано? а все потому что конспирация непонятно от кого и непонятно зачем. Хотя не исключаю и недостаток времени. А теперь возьмите и почитайте оригинальную статью MclIroy

http://gpsis.utp.edu.co/downloads/a3udeloz_spell.pdf и Вы поймете, что понятно, а что не очень. :-)

в) ну и наконец последний вопрос (ссылку с PDF только чур не открывать): как называется оригинальная статья, на которую Илья ссылается? конечно, сейчас есть гугл скулар, просто гугл автокорректор в гугле, но раньше я бы, вполне возможно, не нашел бы эту статью, пользуясь альтавистой.

Размер словаря

18 февраля 2006, 00:17

Artisan:
И это правильно, ...

о, смотрите мой комментарий выше про статью я там поправил. итого 300 кб - это не стопроцентно точный, рандомизированный алгоритм.

Размер словаря

18 февраля 2006, 00:10

Да, но речь шла не просто про умять, а про умять и искать. а префиксные коды искать позволяют только последовательно.

это раз. Наверное, можно туда запихнуть указатели с префиксными метками для бинарного поиска. Получится некий гибрид с деревом. Если много меток вставим раздуется размер, будет 400-500к, если мало будет скорость не очень.

потом Вы так и не обосновали существование надежного способа генерации id (пусть и с дырками) по строковому представлению. это два.

PS: кстати, вот http://company.yandex.ru/articles/article5.html статья Ильи, только я в ней никогда ничего почти не понимал, потому что Илья ее тоже, похоже, писал старательно конспирируясь.

Artisan:
То что можно умять словарь в 300kb как я писал выше
Вы уже поняли что как раз и есть один из аргументов, ...

Кстати, после внимательного прочтения статьи, понимаешь, что там поиск не гарантирует стопроцентную точность. отсюда и такой малый размер quad erat demonstrandum.

Размер словаря

17 февраля 2006, 23:41

ох, блин


awk 'BEGIN{p="";s=0;}{m=0;for (i=1;i<=length($1) && i<=length(p) && substr($1, 1, i) == substr(p, 1, i); ++i) m=i;;p=$1;s+=1*sprintf("%d",0.5 + 0.5 + 5/8.0*(length($1) - m));}END{print s/1024}' dict1

297.629

wc  dict1

106242  106241 1138871 dict1

ну вообще-то похоже. выше это скрипт подсчета длины префиксного кода. практически ровно триста ка. единственная проблема заключается в том, что искать в нем надо полным перебором.

Значит поясняю первый 0.5 это для округления, второй это 4 бита на хранение длины, далее длина суфикса из расчета 5 битов на букву.

Если сказали А, то говорите Б, а то мы будем думать, что это и есть дешевый развод. Меня, кстати, безумно радует эта атмосфера секретности. При этом, как показывает опыт, если копнешь поглубже, то все эти так называемые секреты или ошибка эксперимента (то бишь забыли, преувеличили, итд итп), или давно уже опубликовано. Так что, просим аргументы в студию, иначе будем считать, что профессор зачот не сдал :-)

Artisan:
Только за хорошее вознаграждение, ...
Иногда для открытия тайны достаточно одного слова,
поэтому на дешевые разводы типа этого я не ведусь, ...

Размер словаря

17 февраля 2006, 23:12

ЗодчийТеней:
вы опять говорите "а" но не говорите "б", думаю что из вас вышелбы неплохой адвокат

при этом я ни за что не поверю, что алгоритм генерации уникальных айди на основе строк настолько важен, что его нельзя рассекретить :-)

да, это один вариант: префиксный код.

второй вариант: префиксное дерево. вот только все-таки по моим подсчетам см. их выше с поправкой, что все-таки средняя длина слова в словаре не 8, а 9 байт, все-таки побольше 300к получается. 400-500.

А вот Артизан утверждает, что есть еще один вариант хранения, и что он как раз влезает в 300 к для 100 тысяч словооснов. Могу с натяжкой поверить, но проверить увы.

!Иван FXS:
... понятна одна банальная вещь: хранить нужно инкрементально, то есть6
- если в словаре после "дом" идет "дон", то при переходе от первого ко второму нужно хранить только "н";
- а если после "ключик" идет "ключом", то при переходе от первого ко второму нужно хранить только "ом";
- а если после "ключа" идет "ключик", то при переходе от первого ко второму нужно хранить "ик" и - в какой-то нотации - указание на то, что одна буква заменяется на две.

Морфологический разбор слова - на приставку, корень и окончание - я обсуждать не берусь.

Размер словаря

17 февраля 2006, 23:11

Artisan:
Оба утверждения неправильные, ...

ок тогда опровергните их.

Размер словаря

17 февраля 2006, 22:55

и морфология есть готовая. у Кевы можно купить. на macrocosm.narod.ru даже бесплатно скачать под винды и линукс.

ЗодчийТеней:
а что вам мешает по этим данным вычислить идентификатор слова? он ведь вам всеравно понадобится, так почему его не заложить сразу в алгоритм?

есть два варианта

1) хранить, тогда прощай компактное представление. точнее не прощай, но это доп расходны на хранение.

2) генерировать из слова уникальные id. но я не знаю алгоритма, который гарантировал бы уникальность такого id.

Размер словаря

17 февраля 2006, 22:52

Вот и кстати, тов Зодчий на тему компактного представления словаря. СЕЙЧАС эта задача уже не актуальна, в отличие от компактного представления инвертированного индекса. Потому что словарь по сравнению с этим самым индексом мааахонький.

ЗодчийТеней:
это увы малорельно :-(, думаете что сегодня человек при здравом уме затеит эксперемент с созданием поискового сервиса?

Почему же, я собираюсь заняться. Причем даже не одним, но узкоспецилизированными. И при наличии основной работы. Дык спать семь часов в день все равно надо, башка иначе перестанет варить. И таски, которые на свежую голову занимают час времени легко могут потребовать месяца усилий.

Что делать, чтобы попасть в ответы Google Bard

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

itman