Рамблер, безусловно, более точен. Одна из причин этого - его доля почти не меняется в зависимости от тематики запросов: 22-25% поискового трафика, независимо от того музыку или игры ищут. Доля Яндекса и Гугля очень сильно скачет по тематикам. Поэтому определять Яндекс через Рамблер, как советует Kostya не советую, а общий объем аудитории - вполне можно.
клиент - постмодернист :). Все уже написано до нас и есть в интернете :) Это уже поколение менеджеров на курсовых-рефератах из Сети выросло. Для них это нормальный ход мыслей: втюхать работодателю, как раньше втюхивали экзаменатору.
не всегда. страница могла изменяться после этого (например, новый дизайн), некоторые динамические сайты отдают текущую дату и т.п. восстановить все с какой-то долей уверенности можно только через архив.орг. А оно мне надо? Лучше это время потратить на изменения текста.
Я вот сейчас близок к тому, чтобы заработать себе право рассказывать про "случай". Тексты, которые клиент размещает на сайте при ближайшем рассмотрении оказались слизанными с другого сайта, причем установить оригинал уже невозможно, информация пошла дублироваться. На мое епрст, как же так - милый ответ, эту инфу дали наши партнеры, они ее владельцы. Возможно все так и есть, однако все равно появляется вероятность склейки дублей. Хоть садись и перепичывай все сам.
alex_ovd, вы еще "зашейте" в текст статьи некоторое количество ссылок на свои же статьи на своем сайте. Особенно хорошо работает, если при удалении ссылки теряется смысл написанного. И вообще, облегчите жизнь заимстователям, подпись ссылкой сделайте и т.п.
О, на ловца и зверь бежит. Сила не в репутации, брат :) Ты не хочешь, все же продолжить с двусловными терминами ради спортивного интереса? :)
Если вас интересуют соотношения многословных/однословных терминов, то есть данные (не мои) по другим подъязыкам.
Тематика, она же рубрика :) - зона выборки, относящаяся к определенной теме, в нее входят документы, посвященные, например, информационной безопасности в применении к интернет-технологиям, банкинга и т.п. Список выше. Объем такой подвыборки старался выдерживать в районе 20 тыс. словоупотреблений.
По двусловным терминам - рассматривались только адъективные словосочетания наиболее частотных прилагательных. Я вообще планировал и другие научиться определять, Слава Тихонов мне обещал помочь программно, но не срослось пока, он был занят Новотекой. Так что продолжать есть куда :)
По морфемам - выделялись только продуктивные морфемы, которые могут быть признаком терминологичности единицы. Ну, типа -инг и т.п.
"Темы" были выбраны такие.
Рубрика
1) Вступ до інтернету
2) Користування (браузери, пейджери, інші програми)
3) Доступ, хостинг, провайдери
4) Навігація, доменні імена. Пошук, каталоги
5) Веб-дизайн та розробка
6) Інтернет-статистика, аналітика
7) Інформаційна безпека
8) Електронная пошта
9) Інтернет-спільноти
10) Інтернет-банкінг,білінг+
11) Оптимізація сайту, просування
12) Реклама
13) Тематичні сайти
14) Словники
На полноту, как оказалось уже в процессе, не претендует. Геймерский сленг весь остался за бортом, например.
Частотные словари создавались общий и отдельно для каждой тематики.
Длина общего текстового файла 217502 словоупотребления, 12382 слов.
Выборки по тематикам, например "Информационная безопасность", - 20988 словоупотреблений, 3009 слов.
Активный-пассивный словари рассматривать проблематично. Поскольку вся выборка из живых текстов, видимо, это активный словарь полностью.
Различными методами выделено 455(частотные методы) + 751(словарные)
Дефиниции уже имели 543, вот из этих процент пассивных можно было бы посмотреть, но я этого не делал, меня больше процессы заимствования и адаптации терминов интересовали.
В качестве прикола. Как различные народы озвучили @
@ Catalan: arrova
@ Czech: zavinac (оселедець)
@ Danish: snabel-a (слонячий хобот-a)
@ Dutch: apestaart (мавпячий хвіст)
@ Finnish: kissanhnt (котячий хвіст)
@ French: arrobase
@ German: klammeraffe (мавпа, що гойдається)
@ Hebrew: shablul (струдель)
@ Hungarian: kukac (хробак)
@ Italian: chiocciola (равлик)
@ Korean: dalphaengi (равлик)
@ Norwegian: grisehale (свинячий хвіст)
@ Polish: malpa (мавпа)
@ Russian: sabachka (песик)
@ Serbian: ludo-a (божевільне a)
@ Spanish: arroba (1 arroba = 25 фунтів)