- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
![Что делать, если ваша email-рассылка попала в спам](https://d.searchengines.guru/20/96/email-spam_600x314__c5488739.jpg)
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
AIK, они над Вами подшучивают: указанные фразы издревле служат для тестирования программистом качества воспроизведения букв на экране или на принтере - они гарантированно содержат все буквы алфавита (в данных примерах - кроме Ъ).
Что касается обсуждаемой здесь матрицы инцидентности слов, то набор сколько-нибудь стоящей статистики, похоже, нереален - не хватает текстов.
Матрица на самом деле имеет объём просто N*N, где N - число слов в языке, то есть "квадрат словаря Зализняка" - 100,000 в квадрате, 10 в 10-й степени.
Когда я этим занимался в МедиаЛингве, получалось, что статистики, достаточной для отеделения устойчивых словосочетаний от свободных сочетаний слов, просто не наберёшь на существующем объёме электронных текстов.
Матрица окажется почти нулевой, а наличие в клетке ненулевого значения не будет говорить ни о чём, кроме случайности.
И это при том, что вообще говоря, по сторонам такой матрицы должны стоять лексемы (корни), а не словоформы, поскольку словоформ миллионы и с ними вообще не справиться.
И в мыслях не было. Пример из жизни. Видел эту фразу дословно переведенной в каком-то из графических редакторов с руссифицированным интерфейсом.
Тот случай, когда переводчики переусердствовали.
Что касается обсуждаемой здесь матрицы инцидентности слов, то набор сколько-нибудь стоящей статистики, похоже, нереален - не хватает текстов.
Матрица на самом деле имеет объём просто N*N, где N - число слов в языке
Игорь, в данном случае зависит от задачи. Сразу заниматься полной матрицей нет необходимости. Начать можно с более частотных слов, даже со словоформ. Тогда матрица получится вполне обозримой. Однако, возникают задачи выделения "стартового" множества, а также сведения лексем (я и хотел выяснить, как msa хочет последннюю решать). Но решать их можно, поэтому ставить крест на матрице сочетаемости я бы не стал.
Игорь, извините а нельзя ли как-нибудь обозначить этот объем? Желательно не в мегабайтах а в тысячах слов, но и в байтах сойдет.
Немного выше по топику я ссылался на некий частотный словарь, и AIK решил, что это моя выборка. У меня записей под руками не было, поэтому полностью расшифрую его сейчас.
Комплексный частотный словарь русской научной и технической лексики: 3047 слов, Денисов П.Н., Морковкин В.В., Сафьян Ю.А. - М., 1978
Массив 400 000 словоупотреблений
200 частей - выборки по 2000 словоупотреблений
отбирались слова с частотой не менее 10
тексты отбирались по 11 (по-моему) разделам.
Посмотрите на год издания, вспомните перфокарты и грохочущие "Мински", и снимите шляпу.
Может не текстов мало, а методика их отбора должна быть другой?
У меня вот есть смутные подозрения, что тематическую направленность текста можно определять, например, по частоте буквы П :) Это так, для примера.
AlexA
Вот есть такая релевантная ссылка
http://www.artint.ru/projects/frqlist/frqlist-en.asp
The average word length is 5.28 characters.
The average sentence length is 10.38 words.
1000 most frequent lemmas cover 64.0708% of word forms in texts.
2000 most frequent lemmas cover 71.9521% of word forms in texts.
3000 most frequent lemmas cover 76.6824% of word forms in texts.
5000 most frequent lemmas cover 82.0604% of word forms in texts.
Частотный словарь русский, 1М слов, можно скачать в зипе 32К слов с частотами более одного случая на миллион.