с однослойной нейронкой типа Word2vec экспериментировал с генерацией текста 3 года назад, результат обоешл уникалньые фильтры и Ципфа, но был откровеннейшим бердом..
Сейчас вот думаю постепенно и подойду к нейронкам, но скорее всгео буду использовать трехслойную, но перд этим нужно еще повысить скорсоть доступа к архивам, из чего-то компоновать нужно, или свой серп делать или какие-то C++ либы брать, уже сейчас тысяч запросов на один текст, что даже при оптимизации не очень быстро.
ты не обижайся, я прост вспоминаю времена когда были деньги, и угарать на форумах со всяких оленей - это последнее о чем яп мог вообще подумать в тот момент, так что расслапся, попей чайку и гоу работать, а там глядишь, лучшие времена скоро настанут...---------- Добавлено 28.01.2017 в 16:39 ----------exarh, собаке трусы поменяй, кста сам шил? понимаю со скуки и бесденешья ище не таким рукоделием займешься))
с мамой поосторожнее, дядя... шелп ты уже... свои считать.
овчинка выделки не стоит, я создал максимально оптимизированное решение, то есть экономический эффект интересовал, остальное - это так, "ради искусства". ---------- Добавлено 28.01.2017 в 16:32 ----------
а вот это неверный ход мыслей, такую фигню морфоперестановками генерировал еще летом.
J-ran, перефразировать в ущерб смысловой компоненте и читабельности? в целом это даст менее качественный текст, а совпадение техвыкладок не показатель.---------- Добавлено 28.01.2017 в 16:25 ----------exarh, я вот не пойму что ты вообще делаешь в этом топике. У тебя много свободного времени и мало денег? Ну подумай что может человек со свободным времененм и деньгами делать в унылом топике про замусоленные научные темы с нейронками?
Ты просто хочешь чтобы в тебя кинулись демоверсией типа за респектики, потому что если не кинутся ты будешь ныть?
Ну поныл и чё дальше? Займись делом ... Наделай бабла уже чтоли и съездь отдохни, кидаешься тут со своей криткой понимаешь ли, фрустрации свои на людей перебрасываешь...
exarh, ты точные вхождение длиннее трёхсловных конструкций показать можешь в сниппете? То что Яндекс по смыслу ищет - это я заметил.
Это вобщем-то и было приоритетной задачей при разработке, что касается уникальности то она на третьем месте, на втором - читабельность и содержательность.---------- Добавлено 28.01.2017 в 15:48 ----------slavok, ты точные совпадения показать можешь в сниппете? Похоже что Яндекс ищет по смыслу, так как точных совпадений в сниппете и тексте нет, кроме отдельных фрагментов. То что он видит его как текст по тому же запросу не показатель.
В оптимизированном варианте можно.
Касательно инпута по уникальности - этот момент будет учтен в следующих версиях алгоритма.---------- Добавлено 28.01.2017 в 15:37 ----------UPD: некоторые доработки ( пример )
Ты всё целиком читал? У тебя совсем другое ТЗ в голове, с чего ты взял что эта уникальность вообще нужна, слова уникальны? нет. грамемы уникальны? довольно редко встречаются новые обороты... единственное что можно сделать это уменньшить длину фрагмента, но в целом текст читабельный. Ты можешь допустить что поисковик оценвает не уникальность а полезность, те же поведенческие, о котрых часто рассказывают, лично я считаю чте в данный момент поисковики могут оценивать информативность текста, то что я видел сгенерировано но нечитабельно, и безсмысленно, а этот текст можно читать.
Это не мешанка, если ты сделаешь мешанку, то получишь набор предложений, котрые при прочтении будут выглядеть как полный бред, вобщем тут включаются субъективные фильтры, ореол первого впечатления и отголоски перпалок в старых топиках, ну то есть идет по сути искажение восприятия и его проецирование на результат, а он не плох, потмоу что перепробовано очень многое и то что в ветке выкладывали еще летом перепробовно и выброшено, остался такой вариант. Ну сам посуди если юзер зависнет только на чтении минуты на полторы, зачем поисковику это банить если его читают, ты видел из чего форум состит? Он забанен или в саплименте? На счетчик вниз глян? Домен, траст? Есть пачки блогов на котрых то же самое и заведены они вчера или позавчера и трафик появляется, главное не уникалньость а информативность, а этой уникальностью вы только циклитесь на неэффективных напаравлениях, можно взять наугад 2 текста довольно высоко проранжированных страниц и простым дифом или нейронкой проверить процент схождения, думаешь они абсолютно взаимноуникальны?
Начинаю по-немногу выкладывать примеры текста:
UPD: &ndash в тексте уже пофиксил.