проведи эксперимент и опровергни или подверди.
меня погрешность в 0.5 более чем устраивает. А ссылки никто не вычитает. Стопудово. (ссылки в JScript и т.п. не считаем по умолчанию)
Расчитывается - да, отображается в баре - нет.
Правильно понимаешь. Только не забывай, что ВИЦ показывается один на все страницы, а он в пределах сайта меняется в широком диапазоне. Скажем так - это тот максимум, который ты можешь получить.
ВИЦ в отличие от PR хорошо считается влоб. Подели ВИЦ ресурса, который на тебя ссылается на число ссылок на странице и получишь "прибавку к жалованию" :)
Ну нет, так нет. А вообще я думаю, что всяческий Herbalife и есть твой вирусный маркетинг :D
Drow
Смотри, насоветуешь :) Будут потом претензии предъявлять, что бизнес не пошёл :)
Проблемы переводов мне чужды. Я догадываюсь, что тут какая-то засада, но я бы перевёл так: быстрая бурая лиса прыгает выше медленной собаки.
Что касается IT-терминологии. Устаканится всё лет через пять, а msa классифицировать собирается уже сегодня. А про баобабочку и развитие БД я подсмотрел в книге сестры "Практические основы перевода". Т.е. технического редактора там по определению не предусматривалось. Но это означает, что даже человек не знакомый с проблемой не может адекватно подобрать перевод, т.е. он не ощущает качество связи между двумя словами (видимо также и я лопухнулся с лисой :)).
Теперь к Вашему фильтру. Я очень сильно подозреваю, что человек его накладывавший очень сильно абстрагировался от жизни. Есть такая шутка - у среднего американца одна грудь и одно яичко :).
Понятно, что по физике, механике, астрономии, химии и математике текстов написано гораздо больше, чем скажем по морскому делу.
И там такелаж или каботаж встречаются наверно не так уж и редко. То же самое в авиационной литературе - высший пилотаж, экипаж самолёта, крутой вираж, фюзеляж и т.п. встречаются не так уж и редко. А то, что слова французкие не удивительно - французы пиратствовали не хуже испанцев, да и братья Монгольфьер были не последними людьми в авиации.
Но я поступил совсем примитивно - залез в словарь Зализняка и выбрал все слова, оканчивающиеся на ж. Их оказалось 155 штук, включая 5 городов и некоторые повторы, связаные с не различением е и ё. После чего отобрал только чисто технические (ещё исключил бюрократизмы, псевдотехнические стеллаж, камуфляж и т.п., узкопрофильные фюзеляж и форсаж и т.д, и разные виды монтажа, но демонтаж оставил) широкоупотрибимые слова. И всё равно осталось 7 слов. Вот они:
демонтаж
инструктаж
картридж
крепеж
монтаж
нож
чертеж
Если фильтр отрбросил больше, то совсем непонятно на каких текстах вы обкатывали. Мне например очень жалко "рубеж" и "меж" :)
Ой не верю. (хроно)метраж, тираж, гараж, тоннаж, абордаж, экипаж, такелаж, вираж, зондаж, бандаж, дренаж... остановился только потому, что устал отделять "ненаучно-технические" слова. Я уже не говорю о сугубо технических терминах типа "барботаж".
И очень сомнительно, что мой словарный запас превышает размером Пушкинский... Вывод - словарь на 400К словоупотреблений строился на очень узкой тематике.
А что касается анализа, то вспоминается диалог из байки
- Вчера мать сдохла. Пришлось выбросить.
- Мозги-то хоть достал?
И беда в том, что вся терминология в IT заимстованная.
В итоге, филологи (многие из которых на мой взгляд занимаются филоложеством :D) наряду с примером перевода кэролловской Bread-and-butter-fly как баобабочки (вместо бутербродочки) дают перевод устойчивого(!) словосочетания database development как развитие базы данных. Филологи(!) допускают такую ошибку, потому что не понимают, что базы разрабатывают, а не развивают. А вы хотите чтобы программа сама научилась. На таких текстах - многому можно научится :)
Это объективная реальность. А не авторский контент никто "тырить" не будет.
spark
Меньше всего хотел Вас задеть. Коль скоро это произошло, то прошу прощения.
Отвлечёмся немного от программирования (точнее от оптимизации), и посмотрим, что означает "построить связи между словами". Ограничимся словарным запасом в 1К слов - для среднестатического человека в повседневной жизни наверное хватит. Мы будем вынуждены заполнить матрицу 1К на 1К. А теперь чистая математика. Сколько пар слов мы должны проанализировать, чтобы заполнить матрицу? Очень просто n!\(2!*(n-2)!) Всего 499500 пар. Сколько времени уйдёт на то, чтобы проверить эти пары? А анализ больших объёмов текстов не очень помогает - отсутствие связи в исследованых текстах отнюдь не гарантирует того, что связи не бывает в принципе или она "слабая".
Особенно это касается "новояза".