Спасибо модератору wolf, что он изменил название темы! Также смотрите на ап моей второй базы!
В этом топике я обещал сегодня выложить базу под Алсабмитер и содержащую 350 адресов.
Я вас жестоко обманул. База содержит больше 500 адресов! :). И она теперь под Алсабмитер!
Общая 94
IT (Информационные технологии) 55
Программирование 9
Портативная электроника (телефоны, смарфоны МП3 плееры и др ) 10
Компьютерные игры 6
Автомобили 15
Web (хостинг, создание и раскрутка сайтов) 27
Недвижимость, обустройство дома 25
Бизнес, экономика и промышленность 41
Строительство 32
Варез (Софт, юмор, эротика, мобильные телефоны) 28
Туризм 8
Спорт 12
Реклама, маркетинг и брендинг 10
Другое 29
Музыка 7
Домашние животные 7
Фото 3
Религия 4
Для женщин 6
Безопасность 3
Пресс-релизы 82
Итого: 512
СТОИМОСТЬ ВОЗРОСЛА ДО 20 WMZ.
При покупке моей новостной базы скидка 5 WMZ.
Апы бесплатные в течении полугода!
Тем кто купил у меня эту базу, тем я вторую продам за 10 WMZ! В ней 350 мест для публикации новостей. Подробности тут.
Шифровка базы здесь. http://altalabs.ru/files/images/art.rar
Ап всем буду сейчас пересылать. Если кому то завтра или после завтра не перешлю - стучите в личку.
Вы путаете пресс-релизы с рекламными статьями. Уточните, что вам нужно.
Письма пришли новые (47 штук).
А скоко теперь в базе каталогов?
перешли на мыло nimbox@list.ru
Один доброволец есть для чистоты экспиремента нужно еще 4 ре. Страницы я вам предоставлю.
Как выявить дубли. Если обьемы проверяемых данных малы. То делаеться так:
Текст разбиваеться на шинглы.
Для каждого шингла считаеться 85 контроотльных сумм по разным формулам. Вид функций подсчета контрольных сумм - неиграет роли, кроме ленейно зависимости и вырожденых случаев.
Для каждой из 85 функций находим шингл чек чумм которого будет минимальной.
Записываем 85 этих чисел.
И что бы сравнить два документа в худшем случае нужно 85 сранений.
Если одинаковых шинглов > 20 (допустим), то это плагиат.
--------------------
Это самый жесткий алгоритм проверки ЯШИ.
SH1, SH2 .... SHn - шинглы (строки из 10 слов)
F1, F2 ...F85 функции произвольного вида
VSH1...VSH85 - выборка шинглов
VSH1 =min(F1(SH1),F1(SH2) ...F1(SHn));
VSH2 =min(F2(SH1),F2(SH2) ...F2(SHn));
.........................................................
VSH85 =min(F85(SH1),F85(SH2) ...F85(SHn));
Пусть {VSH}, i = 1, ... 85 выборка первого документа А {VSH'} , i = 1, ... 85 выборка второго документа Алгоритм проверки for(i=0;i<85;i++) { if (VSH==VSH') ВЕРОЯТНОСТЬ_ПЛАГИАТА++; } if(ВЕРОЯТНОСТЬ_ПЛАГИАТА>20) return Дубль!!!_Зеркальшик_склеить; else уникальный_контент_не_ клеить!!; Это алгоритм самой строгий проверки ЯШИ. P.S. КТо т будет мне помогать опыты ставить?
Мало, что бы индексировать страницу. Чуть больше чем провести поиск.
ЕСли мы возьмем один супер шингл на один документ, то чтобы сравнить ега с милиардом других нужно около сотни тысяч операций сравнения целых чисел.
Каждый с каждым не сравниваеться, сравниваються новые или перелинкованые.
Некоторые материалы сравниваються более жестко нужно в этом случае нужно для сравнения двух документов 85 ть операций. Как происходит - не знаю.
Гейт же вроде бы жив.
Убил его человек который искал по тому же вопросу в Яндексе?
Он учавствовал в кубке Яндекса?
Убили в течении 10 минут после поиска?
Запрос был один?
Запросов было несколько?
Запрос ВЧ или СЧ или НЧ?
Его убили из-за денег?
Версия он выиграл кубок Яндекса. Яхал в поезде и его убили, чтобы отобрать вигрыш :)
Вы меня или вас не понимаем.
1. Выборки Шинглов и Супер шинглы для чего то нужны. Или что бы статьи яндекс про них писал.
2. Можно найти огромное к- во документов в которых совпадает один и тот же ключ.
3. Если тупо считать контрольную сумму, то малейшее изменение приводит к смене ключа.
По теме
------------------------------------------------------------
Может кто-то провести экспирименты.
Мне нужно 5-10 добровольцев. Если получиться, то вышлю прогу им бесплатно. Собираюсь написать такую программу "антишингл".
Первый - на сайте одновременно добавить две страницы.
Первая слова идут в нормальном порядке, вторая в обратном.
1. Мама мыла раму большой зеленой тряпкой. Я наблюдал за этим.
2. Этим за наблюдал Я. Тряпкой зеленой большой раму мыла мама.
Нужен, чтобы понять шинглы считаються с учетом расположения слов или без учета.
Еще один экспиримент:
Замена части букв на транслит.
Так спамеры поступают.
1. Электронным
2. Элеkтpонныm
Если получиться, то прогу легко написать.
И последний экспиримент:
2. Мамы мыли рамы большими зелеными тряпками. Я наблюдали за этими.
Хочу понять шинглы считаються тупо по словам или продвинуто по словоморфам.