spark

spark
Рейтинг
130
Регистрация
24.01.2001
Должность
dummy
Интересы
texts

Рамблер, безусловно, более точен. Одна из причин этого - его доля почти не меняется в зависимости от тематики запросов: 22-25% поискового трафика, независимо от того музыку или игры ищут. Доля Яндекса и Гугля очень сильно скачет по тематикам. Поэтому определять Яндекс через Рамблер, как советует Kostya не советую, а общий объем аудитории - вполне можно.

funnybunny:
значит клиент - липкие руки

клиент - постмодернист :). Все уже написано до нас и есть в интернете :) Это уже поколение менеджеров на курсовых-рефератах из Сети выросло. Для них это нормальный ход мыслей: втюхать работодателю, как раньше втюхивали экзаменатору.

юни:
а разве нельзя найти оригинал по времени создания?

не всегда. страница могла изменяться после этого (например, новый дизайн), некоторые динамические сайты отдают текущую дату и т.п. восстановить все с какой-то долей уверенности можно только через архив.орг. А оно мне надо? Лучше это время потратить на изменения текста.

Я вот сейчас близок к тому, чтобы заработать себе право рассказывать про "случай". Тексты, которые клиент размещает на сайте при ближайшем рассмотрении оказались слизанными с другого сайта, причем установить оригинал уже невозможно, информация пошла дублироваться. На мое епрст, как же так - милый ответ, эту инфу дали наши партнеры, они ее владельцы. Возможно все так и есть, однако все равно появляется вероятность склейки дублей. Хоть садись и перепичывай все сам.

alex_ovd, вы еще "зашейте" в текст статьи некоторое количество ссылок на свои же статьи на своем сайте. Особенно хорошо работает, если при удалении ссылки теряется смысл написанного. И вообще, облегчите жизнь заимстователям, подпись ссылкой сделайте и т.п.

О, на ловца и зверь бежит. Сила не в репутации, брат :) Ты не хочешь, все же продолжить с двусловными терминами ради спортивного интереса? :)

Если вас интересуют соотношения многословных/однословных терминов, то есть данные (не мои) по другим подъязыкам.

На матеріалі 10 тис. російських стандартизованих термінів, проаналізованих І.В. Волковою (2, 77), однослівних виявилося тільки 10,2%, двослівних 36,2%, трислівних і більше – 53,6%

Тематика, она же рубрика :) - зона выборки, относящаяся к определенной теме, в нее входят документы, посвященные, например, информационной безопасности в применении к интернет-технологиям, банкинга и т.п. Список выше. Объем такой подвыборки старался выдерживать в районе 20 тыс. словоупотреблений.

По двусловным терминам - рассматривались только адъективные словосочетания наиболее частотных прилагательных. Я вообще планировал и другие научиться определять, Слава Тихонов мне обещал помочь программно, но не срослось пока, он был занят Новотекой. Так что продолжать есть куда :)

По морфемам - выделялись только продуктивные морфемы, которые могут быть признаком терминологичности единицы. Ну, типа -инг и т.п.

"Темы" были выбраны такие.

Рубрика

1) Вступ до інтернету

2) Користування (браузери, пейджери, інші програми)

3) Доступ, хостинг, провайдери

4) Навігація, доменні імена. Пошук, каталоги

5) Веб-дизайн та розробка

6) Інтернет-статистика, аналітика

7) Інформаційна безпека

8) Електронная пошта

9) Інтернет-спільноти

10) Інтернет-банкінг,білінг+

11) Оптимізація сайту, просування

12) Реклама

13) Тематичні сайти

14) Словники

На полноту, как оказалось уже в процессе, не претендует. Геймерский сленг весь остался за бортом, например.

Частотные словари создавались общий и отдельно для каждой тематики.

Длина общего текстового файла 217502 словоупотребления, 12382 слов.

Выборки по тематикам, например "Информационная безопасность", - 20988 словоупотреблений, 3009 слов.

Активный-пассивный словари рассматривать проблематично. Поскольку вся выборка из живых текстов, видимо, это активный словарь полностью.

Различными методами выделено 455(частотные методы) + 751(словарные)

Дефиниции уже имели 543, вот из этих процент пассивных можно было бы посмотреть, но я этого не делал, меня больше процессы заимствования и адаптации терминов интересовали.

В качестве прикола. Как различные народы озвучили @

@ Catalan: arrova

@ Czech: zavinac (оселедець)

@ Danish: snabel-a (слонячий хобот-a)

@ Dutch: apestaart (мавпячий хвіст)

@ Finnish: kissanhnt (котячий хвіст)

@ French: arrobase

@ German: klammeraffe (мавпа, що гойдається)

@ Hebrew: shablul (струдель)

@ Hungarian: kukac (хробак)

@ Italian: chiocciola (равлик)

@ Korean: dalphaengi (равлик)

@ Norwegian: grisehale (свинячий хвіст)

@ Polish: malpa (мавпа)

@ Russian: sabachka (песик)

@ Serbian: ludo-a (божевільне a)

@ Spanish: arroba (1 arroba = 25 фунтів)

Всего: 1806