- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
ой, откуда-то появились номера слов, я что-то пропустил. нет, лично я имел в виду следующее. анализатор слов а-ля программка Кевы на linguist.nm.ru. то есть если есть набор словооснов, то нужно его так компактно представить в памяти, чтобы по этому компактному представлению и произвольному входному слову определять может ли это слово быть сгенерировано на основе данных словооснов. как правило приятным побочным эффектом такой проверки может (хотя это не обязательно) могут являться грамматические харак-ки слова: часть речи, род, падеж число, итд.... Но в базовом варианте меня устроит и спеллчекер с компактным представлением словаря. Вот, надеюсь, что понятно изложил свои мысли!
- если у нас есть список словоформ - где угодно: хоть в голове, хоть на бумаге, хоть в файле - и мы говорим, что "а" имеет номер 1, то ... вот они, собственно, уже и закодированы все ... однозначно.
Задача, наверное, состоит в том, чтобы написать компактный АЛГОРИТМ, который бы производил ПРЕОБРАЗОВАНИЕ одного в другое ... Чего, кстати, одного - во что другое: слова - в его номер, или номера - в его слово?
Выспитесь а потом внимательно прочитайте эту тему, ...
это увы малорельно :-(, думаете что сегодня человек при здравом уме затеит эксперемент с созданием поискового сервиса?
Вот и кстати, тов Зодчий на тему компактного представления словаря. СЕЙЧАС эта задача уже не актуальна, в отличие от компактного представления инвертированного индекса. Потому что словарь по сравнению с этим самым индексом мааахонький.
это увы малорельно :-(, думаете что сегодня человек при здравом уме затеит эксперемент с созданием поискового сервиса?
Почему же, я собираюсь заняться. Причем даже не одним, но узкоспецилизированными. И при наличии основной работы. Дык спать семь часов в день все равно надо, башка иначе перестанет варить. И таски, которые на свежую голову занимают час времени легко могут потребовать месяца усилий.
чтобы по этому компактному представлению и произвольному входному слову определять может ли это слово быть сгенерировано на основе данных словооснов. как правило приятным побочным эффектом такой проверки может (хотя это не обязательно) могут являться грамматические харак-ки слова: часть речи, род, падеж число, итд....
а что вам мешает по этим данным вычислить идентификатор слова? он ведь вам всеравно понадобится, так почему его не заложить сразу в алгоритм?
и морфология есть готовая. у Кевы можно купить. на macrocosm.narod.ru даже бесплатно скачать под винды и линукс.
а что вам мешает по этим данным вычислить идентификатор слова? он ведь вам всеравно понадобится, так почему его не заложить сразу в алгоритм?
есть два варианта
1) хранить, тогда прощай компактное представление. точнее не прощай, но это доп расходны на хранение.
2) генерировать из слова уникальные id. но я не знаю алгоритма, который гарантировал бы уникальность такого id.
Вот и кстати, тов Зодчий на тему компактного представления словаря. СЕЙЧАС эта задача уже не актуальна, в отличие от компактного представления инвертированного индекса. Потому что словарь по сравнению с этим самым индексом мааахонький.
насчет индекса согласен, но насчет компактности словаря не согласен, при работе с озу вы всегда получите большую скорость, поэтому загрузив все исходные данные в озу вы получите неплохой прирост производительности
Дык спать семь часов в день все равно надо, башка иначе перестанет варить.
всегда есть вариации, у каждого свои нюансы
есть два варианта
Оба утверждения неправильные, ...
Оба утверждения неправильные, ...
вы опять говорите "а" но не говорите "б", думаю что из вас вышелбы неплохой адвокат
Оба утверждения неправильные, ...
ок тогда опровергните их.
... на тему компактного представления словаря...
... понятна одна банальная вещь: хранить нужно инкрементально, то есть6
- если в словаре после "дом" идет "дон", то при переходе от первого ко второму нужно хранить только "н";
- а если после "ключик" идет "ключом", то при переходе от первого ко второму нужно хранить только "ом";
- а если после "ключа" идет "ключик", то при переходе от первого ко второму нужно хранить "ик" и - в какой-то нотации - указание на то, что одна буква заменяется на две.
Морфологический разбор слова - на приставку, корень и окончание - я обсуждать не берусь.