AESCBC192

Рейтинг

Регистрация

11.06.2016

28 января 2017, 00:32

Похоже на то что я называл обучением методом последовательных сопоставлений, биологический аналог - импринтинг в нейрофизиологии, когда известен только конечный результат, далее подается вход, нейронка выводит гипотезу, подает сама себе на вход в сумме с начальным условием, - анализирует полученный результат и его эффективность, и так в цикле пока не отработает условие рузультата - цели, то есть не произойдет импинтирование на определенный раздражитель, составленный из суммы входа и реакции системы, реакция запоминается как наиболее оптимальная стратегия достижения результата.

---------- Добавлено 28.01.2017 в 05:23 ----------

AESCBC192:
Не всегда можно понять

Вообще я привел идеализированный вариант, на практике действительно не всегда получается понять что делает программа, если сложная то иногда очень сложно разобраться чем занимается алгоритм в данный момент, поэтому думаю нужно соврешенствовать методы обратной связи то есть интерфейсы.

Новый нейротопик

27 января 2017, 23:57

_Snake_:
Возможно даже сами создатели уже не понимают по каким признакам она вычисляет спам

Понять можно, нейронку выгружают в список весов и видно какой признак "срабатывает" наиболее часто, иначе процесс обучения станет сложноконтролируемым, на многослойных сложноорганизованных должен быть спецсофт под анализ корелляций, но обратная связь нужна в любом случае.

В распознавании искаженной тектовой графики имхо смое сложное - это разделение на символы, отдельный символ по сетке не так сложно распознать, думаю самая перспективная сфера - это распознавание сложных объектов, а символы это по сути тот же текстораспознаватель для настольного сканера, только работающий с более зашумленным входом.

Новый нейротопик

27 января 2017, 06:39

Lastwarrior:
У Гугла по всему свету разбросаны десятки тысяч самых современных серверов и это не считая железа под Ютуб, поэтому места у него более чем достаточно, чтобы хранить данные еще на 10 лет вперед.

Очень похоже что так и есть.

Нужно посчитать примерное количество страниц в сети в пересчете на терабайты дискового пространства, тогда можно будет понять на каком уровне какие фильтры работают.

---------- Добавлено 27.01.2017 в 09:42 ----------

Nickolay365:
страницы может быть n ревизий, так как гугл бот может скачать страницу n раз

Дифы хранить может, скорее всего так и есть, страница и по ней архив с дифами по датам.

---------- Добавлено 27.01.2017 в 09:49 ----------

Nickolay365:
какой смысл тратить на него место на ssd

таймменеджмент, на таких количествах поисковых запросов, хранить на сриммерах означает понизить наработку на отказ всей системы, а ревизии и перезапуски на таких масштабах обходятся дороже чем хранение даже на RAID SSD, на энтерпрайзе это очень сильно снизит экономический эффект всего решения, фактически он станет отрицательным.

Стриммеры тоже могут быть, в качестве бэкап-системы, но хранить на них страницы нецелесообразно, скорее логи.

большая ёмкость;
низкая стоимость и широкие условия хранения информационного носителя;
стабильность работы;
надёжность;
низкое энергопотребление у ленточной библиотеки большого объёма.

Однако, четыре из протестированных SSD вышли из строя до достижения рубежа в 1 петабайт записанной информации или сразу после него.

Очень похоже что долговременные бэкап-хранилища таки на стримерах, так что версия вполне правдоподобна.

UPD Если добавить систему прогнозирования времени запросов на нейронке, подключить прогнозирующий AI тем самым скоменсировав относительно низкую скорость доступа - можно даже весь архив харнить на стримерах, с перегрузкой в прокси на SSD перед ожидаемым запросом, с учетом надежности последних - скорее всего крупные хранилища работают именно на таком принципе.

UPD Но наиболее вероятно они на данный момент хранят данные в кубитах (q-bit) и используют квантовые вычислителньые системы для обработки запросов, такие системы уже появлись в продаже, соответствено у них они появились раньше, потому как обеспечить скоростно доступ и прогнозирование запросов на объемах в петабайты и при этом обеспечить ту скорость с которой Google отображаетет выдачу малореалистично.

Новость по теме: ... Так же на основе этой же системы искусственного интеллекта специалисты компании Google собираются создать новые квантовые алгоритмы высокоэффективной поисковой системы

Новый нейротопик

26 января 2017, 20:04

Смысл экономический, зачем хранить на вминчестерах тонны бесполезного мусора если можно один раз вложиться в оптимизацию фильтров.

Новый нейротопик

26 января 2017, 19:04

Nickolay365:
я то для генерации могу себе железа прикупить. а вот гугл вряд ли, чтобы каждую страницу проверять

ты видел нейронную сеть в свертке? она не потребляет много мощности, Google может использовать свой язык или вставки в коде на ассемблере, скоростные SSD, процессоры с расширеным кэшем, у них доступ к последним технологиям, думаю вопросов с мощностями у них не возникает.

Новый нейротопик

26 января 2017, 18:43

Nickolay365:
не безлимитные вычислительные мощности

Задача оптимизируема, но вопрос выилительных мощностей и времени выполнения действительно актуален при сложной генерации.

Новый нейротопик

26 января 2017, 18:09

Shmalex:
Есть ли смысл вот от такой обработки текста?

Эконоическая эффективность акой обработки отрицательная. Морфограматический каркас созранен, а значит текст опрелеляется специальным фильтром как копипаст или низкокчественный рерайт, при этом морфоологическая и семантическая правильность конструкций нарушена, что также покажет особый фильтр, итог - текст будет забанен при первом проходе бота, снабежнного данным фильтром, а это ранжирующий от по результату его обхода назначается поисковая позиция, итог - саплимент.

---------- Добавлено 26.01.2017 в 21:10 ----------

vastmanager, хватит превращать мой топик в спамлендинг.

---------- Добавлено 26.01.2017 в 21:11 ----------

Neo00007, синонимайз, не пройдет частотный фильтр, будет бан после индекса.

---------- Добавлено 26.01.2017 в 21:13 ----------

vastmanager, ститстическиредкие слова и конструкции, бан после прихода бота со сталистическим фильтром (разновидность частотного по морфологии и вхождениям), итог -саплимент (если не бан).

---------- Добавлено 26.01.2017 в 21:23 ----------

Lastwarrior:
А есть вообще сегодня достойные спиннеры под ру тексты? Под бурж, вроде, такое уже изобретено и цены с ограничениями там не хилые

Под русский текст собрать аналог спиннера западного текста технологически сложнее, при этом рынок менее денежный, то есть вопрсо экономической эффективности, но в любом случае это будет не дешевле западных аналогов, в ином случае это будет убыточный проект.

По поводу рерайтеров - по алгоритмам перефразироваки это не лучшая версия спиннера, причем с крайне низким быстродейтвием, опять же вопрос экономической эффективности, переплата,

низкая скорость,

однообразие алгоритмов перефразировки,

повышенная вероятность опечаток,

априори более низкий КПД взаимодействия с сервисом (

в случае спиннера процесс автоматизирован и графически представлен,

в случае заказа опосредован многими поинтами,

мессенджерами,

коммуникативные сложности,

человеческий фактор.)

Заказывать есть смысл написание художественных произведений, сценариев, каких-то других креативных моментов, связанных с творчеством, в то же время, это не означает что они не алгоритмизируются и нельзя создать креативный имитационный AI под эти задачи с определенной диаграммой личностных характеристик, но это уже вопрос распределения временного ресурса, кому-то нравится заниматься творчеством и пока люди не решили что это им не интерсно - нет смысла осовбождать их от этого занятия.

Новый нейротопик

26 января 2017, 00:17

shurik0:
А кто тут собирается сдавать экзамен?

Я понял :)

Но в любом случае, контент такого качества на рекламном сайт или лэнде предпочтительнее, он и продержится дольше и сферы маркетинга для выбора шире.

Новый нейротопик

25 января 2017, 23:17

shurik0, поисковики крупные на данном уровне развития технологий имеют алгоритмы оценки информативности теста, ну и потом сайт с читабельным уникалньым контентом смотрится очень хорошо и он информтивен, то есть его можно прочесть и получить полезную информацию по вопросу, такую технологию можно использовать для подборки информации при ускоренной подготовке к экзамену или презентации например чтобы вытянуть максимум информции по вопросу, сфер применения монго.

Новый нейротопик

25 января 2017, 22:47

Nickolay365:
лучше взять какой-то текст и его обработать. я беру релевантные поисковому запросу тексты и их меняю. если есть интерес, можно посмотреть, что выходит, пишите в ЛС

Перфразировщик с учётом смысла на нейронке - это правильный подход, думаю текст неплохой должен быть и читабельный.

---------- Добавлено 26.01.2017 в 01:51 ----------

Nickolay365:
спиннер - это что? нейронка разбирает на части речи, находит именованные сущности (названия, имена собственные, например). дальше либо в словаре нахожу синонимы (с сохранением части речи)

... нее, это несколько не тот вариант, заметный очень, нужно именно содержательные блоки менять, для этого пабликлибы типа Word2Vec несколько не годятся, но текст относительно нормальный получается, это да.

---------- Добавлено 26.01.2017 в 01:53 ----------

_Snake_:
То есть обыкновенный спиннер?

Спиннер - это сервис уникализции, технология может быть какой-угодно, от нее и зависит качество текста.

1 ... 39 40 41 42 43 44 45 46 47 ...71

Всего: 704

Что делать, если ваша email-рассылка попала в спам

Курс биткоина превысил $50 тысяч

AESCBC192