Похоже на то что я называл обучением методом последовательных сопоставлений, биологический аналог - импринтинг в нейрофизиологии, когда известен только конечный результат, далее подается вход, нейронка выводит гипотезу, подает сама себе на вход в сумме с начальным условием, - анализирует полученный результат и его эффективность, и так в цикле пока не отработает условие рузультата - цели, то есть не произойдет импинтирование на определенный раздражитель, составленный из суммы входа и реакции системы, реакция запоминается как наиболее оптимальная стратегия достижения результата. ---------- Добавлено 28.01.2017 в 05:23 ----------
Вообще я привел идеализированный вариант, на практике действительно не всегда получается понять что делает программа, если сложная то иногда очень сложно разобраться чем занимается алгоритм в данный момент, поэтому думаю нужно соврешенствовать методы обратной связи то есть интерфейсы.
Понять можно, нейронку выгружают в список весов и видно какой признак "срабатывает" наиболее часто, иначе процесс обучения станет сложноконтролируемым, на многослойных сложноорганизованных должен быть спецсофт под анализ корелляций, но обратная связь нужна в любом случае.
В распознавании искаженной тектовой графики имхо смое сложное - это разделение на символы, отдельный символ по сетке не так сложно распознать, думаю самая перспективная сфера - это распознавание сложных объектов, а символы это по сути тот же текстораспознаватель для настольного сканера, только работающий с более зашумленным входом.
Очень похоже что так и есть.
Нужно посчитать примерное количество страниц в сети в пересчете на терабайты дискового пространства, тогда можно будет понять на каком уровне какие фильтры работают. ---------- Добавлено 27.01.2017 в 09:42 ----------
Дифы хранить может, скорее всего так и есть, страница и по ней архив с дифами по датам. ---------- Добавлено 27.01.2017 в 09:49 ----------
таймменеджмент, на таких количествах поисковых запросов, хранить на сриммерах означает понизить наработку на отказ всей системы, а ревизии и перезапуски на таких масштабах обходятся дороже чем хранение даже на RAID SSD, на энтерпрайзе это очень сильно снизит экономический эффект всего решения, фактически он станет отрицательным.
Стриммеры тоже могут быть, в качестве бэкап-системы, но хранить на них страницы нецелесообразно, скорее логи.
Очень похоже что долговременные бэкап-хранилища таки на стримерах, так что версия вполне правдоподобна.
UPD Если добавить систему прогнозирования времени запросов на нейронке, подключить прогнозирующий AI тем самым скоменсировав относительно низкую скорость доступа - можно даже весь архив харнить на стримерах, с перегрузкой в прокси на SSD перед ожидаемым запросом, с учетом надежности последних - скорее всего крупные хранилища работают именно на таком принципе.
UPD Но наиболее вероятно они на данный момент хранят данные в кубитах (q-bit) и используют квантовые вычислителньые системы для обработки запросов, такие системы уже появлись в продаже, соответствено у них они появились раньше, потому как обеспечить скоростно доступ и прогнозирование запросов на объемах в петабайты и при этом обеспечить ту скорость с которой Google отображаетет выдачу малореалистично.
Новость по теме: ... Так же на основе этой же системы искусственного интеллекта специалисты компании Google собираются создать новые квантовые алгоритмы высокоэффективной поисковой системы
Смысл экономический, зачем хранить на вминчестерах тонны бесполезного мусора если можно один раз вложиться в оптимизацию фильтров.
ты видел нейронную сеть в свертке? она не потребляет много мощности, Google может использовать свой язык или вставки в коде на ассемблере, скоростные SSD, процессоры с расширеным кэшем, у них доступ к последним технологиям, думаю вопросов с мощностями у них не возникает.
Задача оптимизируема, но вопрос выилительных мощностей и времени выполнения действительно актуален при сложной генерации.
Эконоическая эффективность акой обработки отрицательная. Морфограматический каркас созранен, а значит текст опрелеляется специальным фильтром как копипаст или низкокчественный рерайт, при этом морфоологическая и семантическая правильность конструкций нарушена, что также покажет особый фильтр, итог - текст будет забанен при первом проходе бота, снабежнного данным фильтром, а это ранжирующий от по результату его обхода назначается поисковая позиция, итог - саплимент.---------- Добавлено 26.01.2017 в 21:10 ----------vastmanager, хватит превращать мой топик в спамлендинг.---------- Добавлено 26.01.2017 в 21:11 ----------Neo00007, синонимайз, не пройдет частотный фильтр, будет бан после индекса.---------- Добавлено 26.01.2017 в 21:13 ----------vastmanager, ститстическиредкие слова и конструкции, бан после прихода бота со сталистическим фильтром (разновидность частотного по морфологии и вхождениям), итог -саплимент (если не бан).---------- Добавлено 26.01.2017 в 21:23 ----------
Под русский текст собрать аналог спиннера западного текста технологически сложнее, при этом рынок менее денежный, то есть вопрсо экономической эффективности, но в любом случае это будет не дешевле западных аналогов, в ином случае это будет убыточный проект.
По поводу рерайтеров - по алгоритмам перефразироваки это не лучшая версия спиннера, причем с крайне низким быстродейтвием, опять же вопрос экономической эффективности, переплата,
низкая скорость,
однообразие алгоритмов перефразировки,
повышенная вероятность опечаток,
априори более низкий КПД взаимодействия с сервисом (
в случае спиннера процесс автоматизирован и графически представлен,
в случае заказа опосредован многими поинтами,
мессенджерами,
коммуникативные сложности,
человеческий фактор.)
Заказывать есть смысл написание художественных произведений, сценариев, каких-то других креативных моментов, связанных с творчеством, в то же время, это не означает что они не алгоритмизируются и нельзя создать креативный имитационный AI под эти задачи с определенной диаграммой личностных характеристик, но это уже вопрос распределения временного ресурса, кому-то нравится заниматься творчеством и пока люди не решили что это им не интерсно - нет смысла осовбождать их от этого занятия.
Я понял :)
Но в любом случае, контент такого качества на рекламном сайт или лэнде предпочтительнее, он и продержится дольше и сферы маркетинга для выбора шире.
shurik0, поисковики крупные на данном уровне развития технологий имеют алгоритмы оценки информативности теста, ну и потом сайт с читабельным уникалньым контентом смотрится очень хорошо и он информтивен, то есть его можно прочесть и получить полезную информацию по вопросу, такую технологию можно использовать для подборки информации при ускоренной подготовке к экзамену или презентации например чтобы вытянуть максимум информции по вопросу, сфер применения монго.
Перфразировщик с учётом смысла на нейронке - это правильный подход, думаю текст неплохой должен быть и читабельный.---------- Добавлено 26.01.2017 в 01:51 ----------
... нее, это несколько не тот вариант, заметный очень, нужно именно содержательные блоки менять, для этого пабликлибы типа Word2Vec несколько не годятся, но текст относительно нормальный получается, это да.---------- Добавлено 26.01.2017 в 01:53 ----------
Спиннер - это сервис уникализции, технология может быть какой-угодно, от нее и зависит качество текста.