diafan

Рейтинг
165
Регистрация
09.06.2006
Должность
Headliner
Интересы
Web

Да почему только слеш-то?

diafan:
Вот это вот "Disallow: /" сотрите ...

Просто строчку

User-agent: *

Оставьте и все.

Или можно файл robots.txt совсем удалить, но если сервер настроен на выдачу не ошибки 404, а Вашей информационной страницы "404 не найдено" могут быть проблемы.

Поэтому пусть он просто пустой будет. 🚬

Dervish:
diafan, это алгоритм "шинглов", насколько я помню. У Яндекс другой алгоритм.
seasick:
Вот как раз именно Яндекс и использует алгоритм шинглов.

А вот чтобы не спорить, вот вам ссылка: http://company.yandex.ru/articles/article10.html 🚬

И.Сегалович: "... Для решения ... задачи Udi Manber ... предложил идею ... , а Andrei Broder ... придумал название и довел до ума алгоритм «шинглов» ... " (с)

Роман Вяземский:
Есть у кого опыт возврата страниц отфильтрованных как дубли?
Возможные методики скорейшей реанимации?

Если я правильно понял о чем речь, то:

Какое-то время назад для повышения тИЦ и позиций я решил сделать на 40 некоторых своих сайтах статейку о другом сайте и само собой поставил со статей на этот сайт ссылку. Статья, понятно тематическая продвигаемому сайту и ссылка, аля, "по материалам сайта ..."

Чтобы особо не "париться" я сделал статью в виде statya.html со своим дизайном и в таком виде залил на все 40 сайтов. Через пару недель Яндекс подхватил почти все статьи, но в бэках продвигаемого появились только два (!) сайта из сорока! Еще через пару недель Яндекс показал в бэках другие сайты из сорока, но тоже два! Далее, в бэках появились снова два новых сайта, но с самыми высокими параметрами из всей кучи и они там и держались еще пару апдейтов. Остальные сайты в бэках больше не появлялись...

Это был мой первый личный опыт склейки страниц. :)

Тогда я понял ☝ 😂 что Яндекс нормально относится к цитированию типа "одна одинаковая статья на разных сайтах со ссылкой "по материалам такого-то сайта", в этом и есть смысл классического цитирования сайтов. Но! Если эта статья именно на РАЗНЫХ сайтах, т.е. в "обрамлении" разных уникальных html-кодов, а не 100% одинаковые statya.html на разных доменах!

Соответственно, я перенес статью внутрь html-кода каждого из сайтов и тогда, после очередного апдейта страницы спокойно расклеились, в бэках продвигаемого сайта появились почти все 40 долгожданных ссылок и не менее долгожданный эффект в серпе! 🙄

HakerNik:
Спасибо большое за помощь буду разбираться. Не понимаю,в чем смех?

Не понимаете? Хм. 😒

Тогда прошу простить за язву.

Просто Вы сами написали сообщение Яндекса при попытке добавить сайт: "нельзя ... так как он запрещен к индексации в файле robots.txt..."

Все же прозрачно! Проблема в Вашем robots.txt! Яндекс об этом прямо сказал!

Элементарный поиск с частью Вашей же цитаты, в том же самом Яндексе дает море результатов (причем вполне релевантных ;) ):

http://www.yandex.ru/yandsearch?text=%E7%E0%EF%F0%E5%F9%E5%ED+%EA+%E8%ED%E4%E5%EA%F1%E0%F6%E8%E8+%E2+%F4%E0%E9%EB%E5+robots.txt&stype=www

Вот первые результаты:

http://dengi.filosofia.ru/text/text.php?tartid=0&arid=11&order=position

http://www.rambler.ru/doc/robots.shtml

с наиисчерпывающей информацией по Вашей проблеме!

Причем этот поиск занимает гораздо меньше времени, чем создание здесь новой темы...

Вот я и подумал, что Вы шутите: сами запретили к индексации сайт, а потом создаете тему, в которой "недоуменно" спрашиваете "в чем проблема?"... 🙄

HakerNik:
я хотел добавить свой сайт в Яндекс http://kasta-rap.clan.su/ но Ян выдал мне ошибку
Подскажите, что это за ощибка и как с нею бороться? что нужно сделать,чтобы ян добавил сайт?
Заранее Спасибо!

Очень смешно! :)

User-agent: *
Disallow: /

Вот это вот "Disallow: /" сотрите из файла http://kasta-rap.clan.su/robots.txt, и все будет хорошо! :)

Sculptor:
То есть, получается, достаточно менять предлог или синтаксис предложения, чтобы избежать "склейки"...

Да, получается, нужно менять слова в пределах каждых десяти слов во всем тексте.

А если после этого текст останется согласованным и складным - значит работа по "перекопирайтингу" была проведена серьезная и склейка точно не грозит! ;)

Dybra:
То есть довстаточно просто поменять кодировку и считать, что текст полностью оригинален?

Конечно, нет! :)

Поисковые системы прекрасно узнают буквы русского алфавита в любой известной кодировке. 🚬

SNIPER:
Если полностью одинаковый контент на страницах сайтах, то склеет однозначно!

А если допустим взять два сайта с полностью одинаковым контентом, но на одном сайте поменять абзацы текста местами, как тогда отреагирует яндекс, поклеет сайты или нет? Ведь получается что типа тексты разные... у первого сайта первый абзац один, а у второго сайта первый абзац другой.

Кто-нибудь проводил подобные эксперементы? Поделитесь наблюдениями ПЛИЗ!

Алгоритм вычисления уникальности контента таков:

весь текст делится на десятисловия - как бы "наборы" из десяти слов. Для каждого такого десятисловия считается контрольная сумма. Думаю, вы знаете как это делается, для каждой буквы, имеющей свой ASCII-код. Таким образом получается компактная последовательность контрольных сумм, "описывающих" любой текст.

Если робот где-то встречает менее 20% совпадений последовательности контрольных сумм - о плагиате речь не идет. Если в каком-либо новом тексте около 30-40% процентов совпадений - понятно, по материалам какого(-ких) сайта(-ов) он писался.

Если же более 60-70% совпадений контрольных сумм - скорее всего плагиат, просто в нескольких предложениях переставлены слова. Ну а 90-98% совпадений - все ясно!

В случае перестановки абзацев - останется точное количество контрольных сумм и их последовательность. То, что "переставлены абзацы" - робот вычисляет на раз!

Правда, Роман правильно сказал, эта технология еще не до конца введена в алгоритм и одинаковый текст в серпе есть на разных стоящих подряд сайтах.

Однако, это, по большей части, из-за того, что HTML все-таки разный... :)

kaif7:
...Яндекс почему-то уверен в обратном, забанил...

Это Яндекс так сказал? Т.е. Вы написали Платону и он ответил, что "да, сайт забанен, т.к., мол, зеркало"??? Или сами так решили?

Если на самом деле Платон сообщил об исключении из индекса, он должен был сообщить и причину. Соответственно, устранив ее, через месяц сайт восстановят. Может быть... 🙄 А если в письме будет Платоновское "факсимиле" "Без возможности восстановления" - только менять домен.

kaif7:
Метры...подскажите

Кстати, метры Вам ничего не подскажут, т.к. говорить не умеют, а вот мэтры, захаживающие на этот сайт, скорее всего даже не поймут, что Вы обращаетесь к ним! 😆

anton smeyan:
Сегодня я разместил этот вопрос в разделе "любые вопросы от новичков". Прошу прощения, но спрошу еще здесь. Вот вопрос:

Время от времени я проверяю, как яндекс ищет мой сайт. В результате поиска выдается сообщение:
Результат поиска: страниц — 5 166, сайтов — не менее 457
Статистика слов: xxxxxxxxx — 7 319.
Запросов за месяц: xxxxxxxxx — 0. Купить это слово.
Как понимать этот 0 запросов за месяц? Да я сам не меньше десяти раз искал себя в яндексе с разных айпи адресов. Находил, переходил на сайт.
Да Бог с ним, с моим сайтом. Возьмем, к примеру, слово "******". И вот результат:
Результат поиска: страниц — 2 236 055, сайтов — не менее 7 469
Статистика слов: ****** — 4 101 540.
Запросов за месяц: ****** — 0.

Это не разовый глюк, имеет место давно. Это, видимо не цензура, т. к. аналогичная фигня не наблюдается при поиске, например, слова "йад".
Как это объясняется? Очень любопытно.
Заранее благодарю всех, кто ответит.

Статистика "запросов в месяц" пересчитывается и обновляется не мгновенно, а раз в два-три месяца. По-моему, в этой области тоже есть апдейты. "Апдейт статистики запросов". :)

Более менее точно статистику показов фразы можно посмотреть не под формой поиска Яндекса, а в "подборе слов" в директе: http://direct.yandex.ru/stat/wordsstat.pl?rpt=ppc&key=4f55bbaf2d513c1e5efb730e40bd9221&shw=1&tm=1158931797&checkboxes=0&text=%D0%BF%D1%80%D0%B5%D0%B2%D0%B5%D0%B4&text_geo=%D0%92%D1%81%D0%B5&geo=

Всего: 1340