- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Может знает кто, где найти таблица с морфологией к словарю Зализняка. Сам словарь есть.
Известно где - во вступительной статье к словарю. Там дан полный и точный алгоритм словоизменения и анализа. Это был бы не великий словарь Зализняка, если там бы этого не было.
Читайте. Остаётся запрограммировать.
Задача благородная, решенная уже не одним человеком, и достаточно трудоемкая. Если до сих пор не решали эту задачу, создание анализатора займет около человекогода. Если решали - за несколько месяцев можно справиться :)
прога называется Арианда:
http://www.artint.ru/packin/abrial/download.htm
прога называется Арианда:
http://www.artint.ru/packin/abrial/download.htm
Следует понимать, что одного словаря Зализняка для
хорошей программы морфологического анализа недостаточно.
<p>
Необходимо 3 части:
<p>
<ol>
<li> морфологический словарь.
<p> Словарь Зализняка весьма устарел,
кроме того некоторые вещи в нем не очень хороши для
автоматической обработки. Например, формы прилагательного
ФИНАНСОВ, БЮДЖЕТОВ, ШКАФОВ. Все правильно, но в информационном
поиске плохо.
<p> Есть и несколько проблем концептуального плана:
краткие формы прилагательного, слова с дефисами
<p> Большинство программ со словарной морфологией используют
"клоны" словаря Зализняка собственной выделки. Сначала
сокращают количество статей тысяч на 20-30 .
Затем тысяч на 50 увеличивают.
<p> Кроме того, язык постоянно растет, появляются новые слова.
Нужна система пополнения словаря.
<p>
<li> программа быстрого доступа к словарю<p>
<li> обработка неизвестных словарю слов
<p> Реальные словари имеют 100-200 тысяч словарных статей.
Пусть это покрывает более чем 99.7% (реальные цифры)
известных ВХОЖДЕНИЙ словоформ. Считая средний документ
размером в 400-500 словоупотреблений, получаем, что,
для коллекции в 10,000 документов у Вас 10,000 неизвестных слов,
для коллекции в 100,000 документов у Вас 100,000 неизвестных слов.
<p> Это и ошибки, и специально коверкуемые авторами слова (передача
иностранной речи), и имена собственные (в БОЛЬШОМ количестве)
<p> Есть несколько подходов:
<ul>
<li> генерация гипотез, сравнивая с похожими словами,
то есть используя "сложные модели";
<li> отсечение приставок (АВТО-, МОТО-), суффиксов (-ДЗЕ, -ШВИЛИ) и т.п.
("простые модели")
<li> пользовательский словарь, с приближенным описанием морфологической
информации
</ul>
</ol>
<p>
Реальность состоит в том, что хорошую программу морфологического анализа
делают только "команды", причем с участем лингвистов.
<p>
Да, морфологический разбор - это пол-дела, для поисковых систем надо
еще адекватно подсвечивать результаты (обратная задача), фрагментировать текст
и т.п.
<p>
Если нужна морфология:
<ul>
<li> есть деньги - лучше купить у кого-нибудь существующую
- дешевле выйдет. Только берите с сопровождением
<li> нет - не стоит тратить много времени - делайте самую простую,
но не надейтесь "побить" существующие.
<p> Рекомендую самую простую - отсекайте с конца слова несколько букв,
в зависимости от длины - дешево и сердито.
</ul>
<p>
Всего хорошего,
<p>
Б.Добров
http://risearch.org/
Зализняк все таки устарел... Вот года два назад, когда не было русских леммитайзеров...