Hkey

Hkey
Рейтинг
222
Регистрация
30.09.2006
Интересы
Java

Спасибо модератору wolf, что он изменил название темы! Также смотрите на ап моей второй базы!

В этом топике я обещал сегодня выложить базу под Алсабмитер и содержащую 350 адресов.

Я вас жестоко обманул. База содержит больше 500 адресов! :). И она теперь под Алсабмитер!

Общая 94

IT (Информационные технологии) 55

Программирование 9

Портативная электроника (телефоны, смарфоны МП3 плееры и др ) 10

Компьютерные игры 6

Автомобили 15

Web (хостинг, создание и раскрутка сайтов) 27

Недвижимость, обустройство дома 25

Бизнес, экономика и промышленность 41

Строительство 32

Варез (Софт, юмор, эротика, мобильные телефоны) 28

Туризм 8

Спорт 12

Реклама, маркетинг и брендинг 10

Другое 29

Музыка 7

Домашние животные 7

Фото 3

Религия 4

Для женщин 6

Безопасность 3

Пресс-релизы 82

Итого: 512

СТОИМОСТЬ ВОЗРОСЛА ДО 20 WMZ.

При покупке моей новостной базы скидка 5 WMZ.

Апы бесплатные в течении полугода!

Тем кто купил у меня эту базу, тем я вторую продам за 10 WMZ! В ней 350 мест для публикации новостей. Подробности тут.

Шифровка базы здесь. http://altalabs.ru/files/images/art.rar

Ап всем буду сейчас пересылать. Если кому то завтра или после завтра не перешлю - стучите в личку.

ipconfig:
Требуется написать статьи по оказываемым нами услугам.

Тоесть статьи для размещения на других площадках, описывающие наши услуги итд..

Короче статьи рекламного характера, хорошо написанные.

Свои цену шлите в ЛС, сюда или ICQ6436897.
От 0$ до 7$/1000zn

Вы путаете пресс-релизы с рекламными статьями. Уточните, что вам нужно.

Ice_sCream:
Состоялось очередное обновление базы. Влилось 200 новых каталогов. В течении двух дней будет совешен допрогон по этим каталогам. Как я и обещал, допрогоны будут бесплатны в течении месяца после заказа.

Письма пришли новые (47 штук).

А скоко теперь в базе каталогов?

w-builder:
Например, меня... :)

перешли на мыло nimbox@list.ru

Один доброволец есть для чистоты экспиремента нужно еще 4 ре. Страницы я вам предоставлю.

Vladimir_Rublin:
To: T.R.O.N
Так то то и оно, что находясь не за спиной программиста работающего в Яндекс, никакими размышлениями не поймём как ОНО работает.

Однако, приняв некоторые незыблимые истины за основу, можно прийти к результату, который будет работать и применительно к Яндекс и применительно к Гугле.

Буду откровенен, меня данная проблема интересует совершенно с другой стороны, а именно: как выявлять дубли.
Я и уделил больше внимания как создать, а не тому как обойти.
Как обойти (о таком вот даже подумать страшно) - ломать не строить, уже всё сказано: добавление 1 слова ... Изменение мест слов ... И комбинации: обмен абзацами/педложениями текста с добавлением слов, наконец (метод применительно к статьям) - написание статей с разметкой определяющей порядок замен, см.: /ru/forum/67627

Как выявить дубли. Если обьемы проверяемых данных малы. То делаеться так:

Текст разбиваеться на шинглы.

Для каждого шингла считаеться 85 контроотльных сумм по разным формулам. Вид функций подсчета контрольных сумм - неиграет роли, кроме ленейно зависимости и вырожденых случаев.

Для каждой из 85 функций находим шингл чек чумм которого будет минимальной.

Записываем 85 этих чисел.

И что бы сравнить два документа в худшем случае нужно 85 сранений.

Если одинаковых шинглов > 20 (допустим), то это плагиат.

--------------------

Это самый жесткий алгоритм проверки ЯШИ.

SH1, SH2 .... SHn - шинглы (строки из 10 слов)

F1, F2 ...F85 функции произвольного вида

VSH1...VSH85 - выборка шинглов

VSH1 =min(F1(SH1),F1(SH2) ...F1(SHn));

VSH2 =min(F2(SH1),F2(SH2) ...F2(SHn));

.........................................................

VSH85 =min(F85(SH1),F85(SH2) ...F85(SHn));

Пусть {VSH}, i = 1, ... 85 выборка первого документа
А {VSH'} , i = 1, ... 85 выборка второго документа

Алгоритм проверки

for(i=0;i<85;i++)
{
if (VSH==VSH') ВЕРОЯТНОСТЬ_ПЛАГИАТА++;
}

if(ВЕРОЯТНОСТЬ_ПЛАГИАТА>20)
return Дубль!!!_Зеркальшик_склеить;
else уникальный_контент_не_ клеить!!;



Это алгоритм самой строгий проверки ЯШИ.

P.S. КТо т будет мне помогать опыты ставить?

sumdex:
Hkey
Идея не плохая.
Я даже со стула упал :)
Но вы не учли, сколько железа (серверов) нужно для такого алгоритма.
Я думаю все намного проще.

Тем более, как мной замечено, склейка у Яндекса далеко не идеальна, взять например партнерские программы...

Мало, что бы индексировать страницу. Чуть больше чем провести поиск.

ЕСли мы возьмем один супер шингл на один документ, то чтобы сравнить ега с милиардом других нужно около сотни тысяч операций сравнения целых чисел.

Каждый с каждым не сравниваеться, сравниваються новые или перелинкованые.

Некоторые материалы сравниваються более жестко нужно в этом случае нужно для сравнения двух документов 85 ть операций. Как происходит - не знаю.

MineOptim:
Билл имеется в виду Гейтс?

Гейт же вроде бы жив.

Убил его человек который искал по тому же вопросу в Яндексе?

Он учавствовал в кубке Яндекса?

Убили в течении 10 минут после поиска?

Запрос был один?

Запросов было несколько?

Запрос ВЧ или СЧ или НЧ?

Его убили из-за денег?

Версия он выиграл кубок Яндекса. Яхал в поезде и его убили, чтобы отобрать вигрыш :)

Вы меня или вас не понимаем.

1. Выборки Шинглов и Супер шинглы для чего то нужны. Или что бы статьи яндекс про них писал.

2. Можно найти огромное к- во документов в которых совпадает один и тот же ключ.

3. Если тупо считать контрольную сумму, то малейшее изменение приводит к смене ключа.

По теме

------------------------------------------------------------

Может кто-то провести экспирименты.

Мне нужно 5-10 добровольцев. Если получиться, то вышлю прогу им бесплатно. Собираюсь написать такую программу "антишингл".

Первый - на сайте одновременно добавить две страницы.

Первая слова идут в нормальном порядке, вторая в обратном.

1. Мама мыла раму большой зеленой тряпкой. Я наблюдал за этим.

2. Этим за наблюдал Я. Тряпкой зеленой большой раму мыла мама.

Нужен, чтобы понять шинглы считаються с учетом расположения слов или без учета.

Еще один экспиримент:

Замена части букв на транслит.

Так спамеры поступают.

1. Электронным

2. Элеkтpонныm

Если получиться, то прогу легко написать.

И последний экспиримент:

1. Мама мыла раму большой зеленой тряпкой. Я наблюдал за этим.

2. Мамы мыли рамы большими зелеными тряпками. Я наблюдали за этими.

Хочу понять шинглы считаються тупо по словам или продвинуто по словоморфам.

Всего: 2639