Главное, что у нас принято работать качественно и недорого.
И такое бывает :)
Думаю, что большинство сайтов, создаваемых пользователями серча, будут там спокойно жить. Крупные конторы могут себе позволить работу за минимальную маржу.
Манибек, как говорится, 60 дней.
Неограниченное дисковое пространство, 3 доллара в мес. http://bit.ly/bG79qy Контора серьёзная, с 2002 года работает.
Бронирую:
№50-Интернет-магазин - принтеры и МФУ 15wmz
№53-Интернет магазин оперативной памяти 15wmz
Ценю чувство юмора :)
К сожалению, нет, я - обычный ленивый филолог, куда уж мне алгоритмы писать. Пока что, вот, пытаюсь решить довольно прозаичную задачу. Нужно придумать план максимально эффективного использования аккуратно (без грубых ошибок вроде несогласованности падежей) уникализированного контента. По причине лени не хочу даже один лишний текст писать :) Лучше ведь всё-таки выяснить, сколько размноженных копий можно использовать без вреда для сайтов. Теоретически, всё можно выяснить экспериментальным путём, но для получения нужного результата нужно правильно организовать условия для эксперимента. Вот и собираю информацию, какая уже есть у людей.
DerSoldat добавил 30.01.2010 в 18:23
Нейронные сети это плохо для нас :) Это ж прямая дорога к пониманию текстов или к имитации понимания. Но есть один козырь - Гугл должен использовать для каждого текста минимальный набор действий (кратчайший путь). А нейронная сеть, насколько мне когда-то рассказывали, развивается за счёт своевременной коррекции, потому что сама она не знает, когда приняла неверное решение. Т.е. должно быть нечто (человек, например), что "воспитывает" нейронную сеть и корректирует её развитие. Т.е. нейронная сеть не должна быть более коротким путём, чем метод шинглов, вроде как. Разве что, можно создать некий самокорректирующий алгоритм. Кто его знает, до чего они дошли...
В любом случае, в сердце настоящего человека должна оставаться надежда на возможность малыми ресурсами безнаказанно поиметь комплексную систему :)
DerSoldat добавил 30.01.2010 в 18:30
Всё правильно. Но обращение к уже существующей базе с запросом "выдай-ка мне все 100%-ные совпадения" не решает гугловской задачи борьбы с уникализированным текстом. Если для текста не найдены совпадения, то машина ещё и выберет из базы и информацию о похожих текстах. Правильно? А потом сравнит их с потенциально уникализированным текстом тем же методом шинглов... Ошибаюсь?
Благодарю за ответ.
К сожалению, вынужден не согласиться.
Пишем шаблон:
{Мне очень жаль,|К сожалению,} {я|} {вынужден не|не могу} согласиться.
Получаем два крайних варианта предложений:
"Мне очень жаль, я вынужден не согласиться".
и
"К сожалению, не могу согласиться".
Для человека эти варианты очень похожи по смыслу, а для машины - только потому, что в конце каждого предложения стоит одинаковое слово - "согласиться". Дело в том, что человек по ходу чтения текста погружается в контекст, человек понимает. Машина же, насколько я знаю, ещё не работает с контекстом, машина не понимает, она работает с формальными признаками текста.
В данном случае я привёл только по одному варианту замены для каждого слова. Если привести по 5 вариантов, то мы получим как минимум 5 абсолютно разных вариантов, забанить которые не за что. При этом, чем больше вариантов замены мы создаём, тем больше промежуточных вариантов с разными степенями схожести мы получим.
Гугл не способен провести сравнение каждого текста в интернете с каждым другим текстом - на это не хватит никаких вычислительных ресурсов. Что это для нас значит? Это значит, что у Гугла есть один или несколько шаблонов (или аналитических алгоритмов), по отношению к которым текст как-то классифицируется - т.е. предписывается к какой-то группе, а уже после этого текст может сравниваться с потенциально похожими из этой группы. И вот тут-то, насколько я понимаю, используется метод шинглов. Но это только моя гипотеза.
Моё мнение - в подобной ситуации должна быть допустимая степень схожести текстов, которую Гугл воспринимает как приемлемую. Если используется метод шинглов, то есть и длина шингла, меньше которой Гугл не станет использовать в простых целях экономии машинного ресурса. Опять же, схожесть не содержательная, не по сути, а по лексическому составу и по структуре текста.
Это теория. Если кто-то обладает экспериментально проверенной информацией о том, какие именно признаки текста ещё использует Гугл при отфильтровывании неуникального контента, поделитесь. Хотя бы в личку. Но прежде всего интересуют длина шингла и процент схожести.
Нагуглил:
Шингл (shingle) – это специальное хеш-значение однородной последовательности слов или фраз текста зафиксированной длины.
И вот ещё:
Для решения этой задачи Андрей Бродер в 1997 году придумал название и довел до ума алгоритм «шинглов» (от латинского shingles, что в переводе означает черепица или чешуйки»). Вот его примерное описание. Для каждого десятисловия (количество слов можно варьировать) рассчитывается контрольная сумма (шингл). Десятисловия идут «внахлест», с перекрыванием друг друга, чтобы ничего не потерять. А затем из всего множества контрольных сумм отбираются только те, которые делятся на одно и то же число, для примера 25. Ясно, что повтор даже одного десятисловия – весомый признак дублирования контента. Если же повторов больше половины, то с определенной вероятностью, близкой к единице, можно утверждать, что найдена копия (в манимейкерстве копипаст) со всеми вытекающими. Ведь один совпавший шингл в выборке соответствует примерно 25 совпашим десятисловиям в полном тексте. Взято здесь
Да я и не собирался обижаться 🚬
Но вообще-то именно сейчас у меня чётко определённый траф и можно бы лить его куда-то, где именно такой берут. Но. Во-первых, я не хочу расползаться по куче партнёрок (количество охватываемых тем будет расти), а хочу работать с одной - универсальной партнёркой. Во-вторых, нужна такая система, объявления которой для пользователя будут выглядеть как классическая контекстная. А в классической контекстной идёт какой-разброс тематик даже в пределах одного блока. Поэтому вопрос был сформирован именно так. А если в результате будет получен ответ и на Ваш вопрос, следовательно погибнут сразу два зайца.
Разумное решение