- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
В данном разделе уже много раз поднималась тема неуникального контента (были жалобы типа "спёрли контент", "отфильтровали" и т.п.)
Официальная позиция Яндекса - зеркало Рунета, а не цензоры (но за дубликаты баним/фильтруем/...), т.е., открещиваются от своих же фильтров в некотором роде.
В связи с этим я хочу предложить алгоритм определения первоисточника, раз и навсегда снимающий все вопросы типа "кто у кого списывал".
Алгоритм такой: пусть по какому-либо алгоритму поиска дубликатов у нас уже найдено К "дублей" (Яндекс их уже научился определять). Тогда: первоисточником следует считать тот сайт, где самая ранняя дата появления текста в индексе + самая высокая трастовость. Т.е., если Ф(х,у) - функция определения первоисточника, то первоисточником будет тот сайт, где Ф(х,у) принимает экстремальное значение (минимум/максимум). Здесь:х - параметр оценки времени добавления в индекс контента-"дубля", у - параметр оценки трастовости сайта.
Пример функции оценки первоисточника: Ф(х,у)=Ф(х) - "самая ранняя проиндексированность дубля- кто первый попал в индекс с контентом, тот и первоисточник, остальные должны брать с него ссылку при размещении у себя дубля на страницах" (т.е., такие функции существуют; разумеется, могут быть и другие функции)
Вопрос: чем плох такой алгоритм?
З.Ы. Если интересна тема - могу подкрепить примерами.
БД через 10 лет представил? даже если реализовывать лог истории через числовые значения все равно не реал.
и если я буду тырить по абзацу с n кол-ва сайтов и формировать из них статью, по твоему алгоритму у буду уником.
БД через 10 лет представил? даже если реализовывать лог истории через числовые значения все равно не реал.
и если я буду тырить по абзацу с n кол-ва сайтов и формировать из них статью, по твоему алгоритму у буду уником.
Отвечу:
1)Возможно, но я указал, что есть ещё второй фактор - трастовость сайта. Мой алгоритм для функции Ф(х,у)=Ф(х) будеть работать как препод, который видит перед собой в первую сессию двух первокурсников с одинаковой работой, но не знает ещё ничего о самих студентах (т.е., траст у студ. одинаков, а засчитана работа тому, кто её первым сдаст - даже если она содрана).
2) "и если я буду тырить по абзацу с n кол-ва сайтов и формировать из них статью, по твоему алгоритму у буду уником" - во-первых, я не предлагаю определять дубликаты (Яндекс это без меня делает с помощью шинглов, а я не берусь обсуждать уязвимые места данного метода) - я предлагаю определять первоисточник, уже имея набор дублей. Кстати, в этом случае (при правильной тырке) сайт может быть распознан как нечёткий дубль, который не так жестоко накажут. Но это скорее недостаток алгоритма шинглов, а не моего.
Замечание. Предложенная мной формула является лишь примером. Разумеется, можно придумать формулу лучше, которая с меньшей вероятностью ошибки определит первоисточник. Или на этом форуме никому не интересно ничего, кроме "классный ап", "сайт - УГ" и тому подобного??
Тогда: первоисточником следует считать тот сайт, где самая ранняя дата появления текста в индексе + самая высокая трастовость.
Дык, он и сейчас так определяет: если трастовый сай тырит у вас статьи и они, естественно, появляются в индексе первыми, то по вашей формуле будет вечно процветать плагиат, да еще и с санкциями к источнику.
Еще бы Яндекс индексил все сайты в один день, тогда да, ваш алгоритм "идеален" 😆
Ну а так, сделал я новый сайтик с интересной инфой, а какой-нить тицастый сайт скоммуниздил сразу все, яша на мой сайт зайдет через фиг знает сколько времени, а тот сайт индексит ежедневно, так кто тут будет первоисточник?
>>В связи с этим я хочу предложить алгоритм определения первоисточника, раз и навсегда снимающий все вопросы типа "кто у кого списывал".
Если вы такой гений, что придумали самое универсальное средство, то что ж вы тут сидите - бегом в яндекс, вам там неплохой гонорар пожизненно предложат.
Вопрос: чем плох такой алгоритм?
Тем, что воруя статьи с молодняка любой сайт, который прожил немного дольше (и стал более трастовым, соответственно) будет только повышать свою "первоисточность" в глазах ПС и топить молодняк с действительно уник контентом. А уж если вашу статью "перепечатает" какой-то из старейших тематических сайтов - все, сливай воду. Траст этого сайта затмит все "даты первого попадания в индекс".
А если влияние траста делать совсем незначительным, то зачем он вобще?
+ к этому, на старых сайтах робот обычно бывает значительно чаще, чем на молодняке, даже с уник контентом.
Ещё конкурс можно сделать по идеям ;) Кто, в этот раз, будет спонсором развития Яндекса?...
В данном разделе уже много раз поднималась тема неуникального контента (были жалобы типа "спёрли контент", "отфильтровали" и т.п.)
Официальная позиция Яндекса - зеркало Рунета, а не цензоры (но за дубликаты баним/фильтруем/...), т.е., открещиваются от своих же фильтров в некотором роде.
В связи с этим я хочу предложить алгоритм определения первоисточника, раз и навсегда снимающий все вопросы типа "кто у кого списывал".
Алгоритм такой: пусть по какому-либо алгоритму поиска дубликатов у нас уже найдено К "дублей" (Яндекс их уже научился определять). Тогда: первоисточником следует считать тот сайт, где самая ранняя дата появления текста в индексе + самая высокая трастовость. Т.е., если Ф(х,у) - функция определения первоисточника, то первоисточником будет тот сайт, где Ф(х,у) принимает экстремальное значение (минимум/максимум). Здесь:х - параметр оценки времени добавления в индекс контента-"дубля", у - параметр оценки трастовости сайта.
Пример функции оценки первоисточника: Ф(х,у)=Ф(х) - "самая ранняя проиндексированность дубля- кто первый попал в индекс с контентом, тот и первоисточник, остальные должны брать с него ссылку при размещении у себя дубля на страницах" (т.е., такие функции существуют; разумеется, могут быть и другие функции)
Вопрос: чем плох такой алгоритм?
З.Ы. Если интересна тема - могу подкрепить примерами.
Это что тебе приснилось? В суппорт Яндексу напиши свой вариант и сюда процитируй их ответ....
ИМХО. Может и бред, но...
Яндекс хранит у себя "сохраненную копию" страницы. Почему не сделать addurl'ку с функцией добавления текста привязанного к url'у?
Система:
1. Добавляем url;
2. Ставим галочку на функцию, например "определить первоисточник";
3. Открывается поле "Вставьте текст" - вставляем копипастом;
4. Жмем добавить.
Робот помещает данный текст в БД. Если кто-то что-то еще добавляет, то сравнивает с базой (собственно, как он и делает при определении плагиата). Когда быстробот приходит и кэширует данную страницу, то из БД она удаляется (чтобы не разрасталась). Далее как обычно.
Чтобы не пихали, что непоподя, можно ввести санкции и правила к тем, кто скармливает всякую ерунду, не соответствующую требованиям (вплоть до бана сайта и страницы).
Таким образом Яндекс всегда будет знать, где первоисточник. То есть, своего рода, регистрация контента.
Много уникальных статей, которые жалко потерять, вебмастер не напишет за день, а усложнить аддурилку на 2 клика - это не так страшно...
Конечно не все продумано и описано, но это так... мозговой штурм... наброска идей и не более...
true82,Неплохая попытка. Но у Вашего алгоритма есть следующие недостатки:
1) Такой способ ведёт к увеличению базы данных (в принципе, не страшно, но надо учитывать и это)
2) Ваш алгоритм действительно отследит при добавлении сайта с контентом, является ли новый сайт первоисточником или нет. Но как быть, если сайт уже создан, и на нём хотят поменять контент? Например, страница со статьёй существует, проиндексирована ПС. В какой-то момент на ней хотят поменять контент (перезалить его с целью, например, поискового продвижения). В выдаче она будет присутствовать с вновь залитым текстом, но когда он проиндексируется - вот вопрос, а за это время его кто-то может стащить. Видимый выход - ограничить к нему доступ (ну, не удалять же страницу, а потом добавлять!), но это чревато тем, что сайт не переиндексируется (робот в момент захода не получит к нему доступа).
Но это уже хорошая мысль по сравнению с тем, что мне пришлось читать в каментах на мой топик.
true82, может проще через RSS отдавать? Сразу дал Яндексу ссылоку на RSS и всё, пусть забирает и проверяет всё сам.
Вообще считаю идею не жизнеспособной, так как изначально отрицаю адекватность этого фильтра. Нет способов определить первоисточник, который работал бы без ошибок... да и нужен ли он? Может только, как один из самых несущественных факторов...