spzero

Рейтинг
10
Регистрация
01.01.2009
pups123:
ничего нет :(

+1

ping shared13.mchost.ru -t


Обмен пакетами с shared13.mchost.ru [95.142.35.80] с 32 байтами данных:
Превышен интервал ожидания для запроса.
Превышен интервал ожидания для запроса.
Превышен интервал ожидания для запроса.
Превышен интервал ожидания для запроса.
Превышен интервал ожидания для запроса.
Превышен интервал ожидания для запроса.
Превышен интервал ожидания для запроса.
Превышен интервал ожидания для запроса.

Ну DNS они точно запустили. Хоть IP правильный на шареде узнал )

rasiell, на х64 системах ошибка HRESULT ... возникает, если какой то компонент(dll или COM) был откомпилен чисто под 32 бита. Выставь в свойствах проекта Конечную платформу х86 и всё нормально должно стать.

Сеопульт показывает шторм 26.89 % . Прикольно.

Gorodetskiy:
Та ну, басни это все. Тот же РБ на стыках выдает ересь...

Да и простая морфологическая подмена без всяких там проверок лезет на ура.

Ну может быть, РБ просто давно не использую.

Ну одна проверка текста Яндекса точно известна, она написана в списке вакансий http://company.yandex.ru/job/vacancies/dev_linguistic_cpp.xml :

Имеется массив текстов на естественном языке размером ~1 Тб. Число различных словоформ в текстах ~ 200 млн. Нужно собрать словарь из 20 млн. самых частотных биграмм (пар рядом стоящих слов) за разумное время (не более недели) на минимально достаточной конфигурации оборудования.

Опишите оптимальный, по вашему мнению, сценарий решения этой задачи и необходимые инструменты. Оцените затраты реcурсов (количество машин, оперативная память, дисковое пространство под временные файлы и т.п.) и время счета.

Так что за хреновую частоту пар слов можно получить фильтр.

Так вот кто создает темы про АП яндекса, до начала апа :)

Сделай морфологическую подстановку с учетом частотности слов...

Берешь большой словарь русских слов

Собираешь приличное количество правильного текста(из книжек каких нить)

Берешь предложение из текста,

разбиваешь на слова,

получаешь свойства каждого слова(часть речи, род, время),

заменяешь слова на слова из словаря(с такими же свойствами),

причём проверяешь по частоте пары слов(такой словарь как то надо будет собрать :)).

Всё просто.

Получается полностью грамматически правильный и даже иногда читаемый текст :)

ПС: союзы, частицы и предлоги лучше не заменять, а то коряво получается.

Smile8979:
gmario, Скажем так не "Цепи Маркова" Это ведь даже не вчерашний день это можно сказать прошлая неделя. Не думал что их ещё кто-то использует.

Ну достаточно взглянуть выдачу :) Попробуй найти НЕ цепи Маркова или их модификацию(ну и вся остальная байда с перемешиванием, перестановкой текста). Альтернатива это лишь перевод языка туда-обратно, синонимизация. А для хорошей морфологической библиотеки нужна мощная система, я вот пробовал генерить "правильный" текст: 4000 слов с пост обработкой строились около часа!(зато текст был более-менее вменяемым). Да и представитель Яндекса на какой то конференции рассказывал, что морфологический анализ занимает у них 70% мощностей... Видимо 14-го его и запускали :) Хотя из моих доров только половина вылетила )

12
Всего: 16