DerSoldat

Рейтинг
31
Регистрация
10.03.2009
bugsmoran:
На западе так принято делать на самом деле. Все явные параметры безлимитны, но ограничивают неявными. Да, вешайте миллион сайтов. Только на них всех будет выделяться 20 cgi-процессов одновременно))). И весь миллион сайтов будут работать, только по очереди...

Главное, что у нас принято работать качественно и недорого.

Himiko:
Несколько раз перевозил с таких "анлим-хостингов" на сервера, т.к. лимиты есть всегда.
По нагрузке на процессор, количество файлов, размер каждого файла и т.п.

И такое бывает :)

hosting_manager:
Не бывает ничего "неограниченного", тем более за такие деньги... Начнете потреблять ресурсы - Вас сильно ограничат, либо попросят уйти с такого хостинга. Такие хостинги рассчитаны на американцев, которым лень напрягать мозг, чтоб считать... А простенькие веб-странички, которые в большинстве своем они создают - ресурсов потребляют практически 0. Потому для них это неограничено...

Думаю, что большинство сайтов, создаваемых пользователями серча, будут там спокойно жить. Крупные конторы могут себе позволить работу за минимальную маржу.

Манибек, как говорится, 60 дней.

Ermac2010:
Нужен хостинг под видео файлы, объем диска не менее 55 ГБ, будет большая нагрузка на сервер. Приобрету несколько тарифных планов при заполнении места.

Прошу не предлагать заоблачные цены ) У ruskyhost 55 ГБ стоит 8.45 $ в месяц

Неограниченное дисковое пространство, 3 доллара в мес. http://bit.ly/bG79qy Контора серьёзная, с 2002 года работает.

Бронирую:

№50-Интернет-магазин - принтеры и МФУ 15wmz

№53-Интернет магазин оперативной памяти 15wmz

alexburzak:
Ты алгоритмы писал?

Ценю чувство юмора :)

К сожалению, нет, я - обычный ленивый филолог, куда уж мне алгоритмы писать. Пока что, вот, пытаюсь решить довольно прозаичную задачу. Нужно придумать план максимально эффективного использования аккуратно (без грубых ошибок вроде несогласованности падежей) уникализированного контента. По причине лени не хочу даже один лишний текст писать :) Лучше ведь всё-таки выяснить, сколько размноженных копий можно использовать без вреда для сайтов. Теоретически, всё можно выяснить экспериментальным путём, но для получения нужного результата нужно правильно организовать условия для эксперимента. Вот и собираю информацию, какая уже есть у людей.

DerSoldat добавил 30.01.2010 в 18:23

BasTaller:
А есть ли информация, позволяющая судить что Гугл/иной поисковик/ использует только алгоритм шинглов?
Ведь алгоритмов для классификации образов достаточно много. Те же нейронные сети, например.

TC
Имхо, очень интересный вопрос. Тоже много раз задавался.

Нейронные сети это плохо для нас :) Это ж прямая дорога к пониманию текстов или к имитации понимания. Но есть один козырь - Гугл должен использовать для каждого текста минимальный набор действий (кратчайший путь). А нейронная сеть, насколько мне когда-то рассказывали, развивается за счёт своевременной коррекции, потому что сама она не знает, когда приняла неверное решение. Т.е. должно быть нечто (человек, например), что "воспитывает" нейронную сеть и корректирует её развитие. Т.е. нейронная сеть не должна быть более коротким путём, чем метод шинглов, вроде как. Разве что, можно создать некий самокорректирующий алгоритм. Кто его знает, до чего они дошли...

В любом случае, в сердце настоящего человека должна оставаться надежда на возможность малыми ресурсами безнаказанно поиметь комплексную систему :)

DerSoldat добавил 30.01.2010 в 18:30

VF:
Hint: во время поиска Гугл не производит сравнение поискового запроса с каждым текстом в Инете. Поисковая база хранится в удобной для выборки форме, которая осуществляется не перебором всех вариантов. Так и проверку документа при индексации не нужно проводить сравнением со всеми ранее проиндексированными текстами - достаточно делать запросы к поисковой базе.

Всё правильно. Но обращение к уже существующей базе с запросом "выдай-ка мне все 100%-ные совпадения" не решает гугловской задачи борьбы с уникализированным текстом. Если для текста не найдены совпадения, то машина ещё и выберет из базы и информацию о похожих текстах. Правильно? А потом сравнит их с потенциально уникализированным текстом тем же методом шинглов... Ошибаюсь?

Tyomos:
На основе шаблоно {||||} - прямая дорога в бан
Используйте сложные вложенные конструкции, изменяйте структуру предложений, абзацев и всего текста в целом, и тогда, при высокой уникальности по шинглам и небольшом числе копий будет держаться в индексе.

Благодарю за ответ.

К сожалению, вынужден не согласиться.

Пишем шаблон:

{Мне очень жаль,|К сожалению,} {я|} {вынужден не|не могу} согласиться.

Получаем два крайних варианта предложений:

"Мне очень жаль, я вынужден не согласиться".

и

"К сожалению, не могу согласиться".

Для человека эти варианты очень похожи по смыслу, а для машины - только потому, что в конце каждого предложения стоит одинаковое слово - "согласиться". Дело в том, что человек по ходу чтения текста погружается в контекст, человек понимает. Машина же, насколько я знаю, ещё не работает с контекстом, машина не понимает, она работает с формальными признаками текста.

В данном случае я привёл только по одному варианту замены для каждого слова. Если привести по 5 вариантов, то мы получим как минимум 5 абсолютно разных вариантов, забанить которые не за что. При этом, чем больше вариантов замены мы создаём, тем больше промежуточных вариантов с разными степенями схожести мы получим.

Гугл не способен провести сравнение каждого текста в интернете с каждым другим текстом - на это не хватит никаких вычислительных ресурсов. Что это для нас значит? Это значит, что у Гугла есть один или несколько шаблонов (или аналитических алгоритмов), по отношению к которым текст как-то классифицируется - т.е. предписывается к какой-то группе, а уже после этого текст может сравниваться с потенциально похожими из этой группы. И вот тут-то, насколько я понимаю, используется метод шинглов. Но это только моя гипотеза.

Моё мнение - в подобной ситуации должна быть допустимая степень схожести текстов, которую Гугл воспринимает как приемлемую. Если используется метод шинглов, то есть и длина шингла, меньше которой Гугл не станет использовать в простых целях экономии машинного ресурса. Опять же, схожесть не содержательная, не по сути, а по лексическому составу и по структуре текста.

Это теория. Если кто-то обладает экспериментально проверенной информацией о том, какие именно признаки текста ещё использует Гугл при отфильтровывании неуникального контента, поделитесь. Хотя бы в личку. Но прежде всего интересуют длина шингла и процент схожести.

Burner-M:
А что такое шингл?

Нагуглил:

Шингл (shingle) – это специальное хеш-значение однородной последовательности слов или фраз текста зафиксированной длины.

И вот ещё:

Для решения этой задачи Андрей Бродер в 1997 году придумал название и довел до ума алгоритм «шинглов» (от латинского shingles, что в переводе означает черепица или чешуйки»). Вот его примерное описание. Для каждого десятисловия (количество слов можно варьировать) рассчитывается контрольная сумма (шингл). Десятисловия идут «внахлест», с перекрыванием друг друга, чтобы ничего не потерять. А затем из всего множества контрольных сумм отбираются только те, которые делятся на одно и то же число, для примера 25. Ясно, что повтор даже одного десятисловия – весомый признак дублирования контента. Если же повторов больше половины, то с определенной вероятностью, близкой к единице, можно утверждать, что найдена копия (в манимейкерстве копипаст) со всеми вытекающими. Ведь один совпавший шингл в выборке соответствует примерно 25 совпашим десятисловиям в полном тексте. Взято здесь

exe2:
DerSoldat, не обижайтесь, у нас с вами почти одинаковый тип траффика, разнотематический ведь :)

Да я и не собирался обижаться 🚬

Но вообще-то именно сейчас у меня чётко определённый траф и можно бы лить его куда-то, где именно такой берут. Но. Во-первых, я не хочу расползаться по куче партнёрок (количество охватываемых тем будет расти), а хочу работать с одной - универсальной партнёркой. Во-вторых, нужна такая система, объявления которой для пользователя будут выглядеть как классическая контекстная. А в классической контекстной идёт какой-разброс тематик даже в пределах одного блока. Поэтому вопрос был сформирован именно так. А если в результате будет получен ответ и на Ваш вопрос, следовательно погибнут сразу два зайца.

exe2:
извините меня ТС, спрошу в вашем топике что бы не создавать ещё один.

Разумное решение

1 234 5
Всего: 45