а так же многие некоммерческие сайты, созданные не для извлечения прибыли, но которые могут быть полезны для людей.
но такого не будет
ценность поисковика в том, что на любой осмысленный запрос он может предоставить максимально полную базу. отсюда и борьюа за скорость индексирования документов, и за охват.
не нашел в одном поисковике- ищешь в другом. нашел в другом один раз, нашел второ раз, в третий уже идешь туда, а не на первый.
качество выдачи, количество найденных документов и их свежесть - вот что определяет ценность.
Слово шингл я употребил, да.
Попробую развернуть ту свою мысль:
Ранее и сейчас оптимизаторы, рерайтеры, текстовые размноженцы и биржи оценивают уникальность текста по тому, что комбинации слов в проверяемом тексте нигде не повторяются в этих ваших интернетах. а если и повторяются, то кусками. И при размножении текстов из шаблонов они проверялись между собой именно по шинглам (да я сам такую программулину делал, например)
Достаточно было из фразы "сегодня ночью под мостом поймали гитлера с хвостом" сделать фразу "под мостом нынешней ночью был пойман гитлер, у которого был обнаружен при себе хвост"
и вуаля, новый текст, уник
Но в ближайшее (или не ближайшее) но точно будущее, этого будет недостаточно. Нужно будет привносить что-то свое, уникальное именно в смысл.
а где это я утверждал что будет ранжирование по шинглам?
наоборот, я говорю, что уник текст и уник смысл - разные вещи.---------- Добавлено 26.03.2016 в 18:40 ----------
это вам только так кажется
вы попросили дать ответ на неконкретный вопрос, и получили неконкретный ответ, только и всего.
возможно, какие-то физиологические особенности, или альтернативное мышление не позволяют вам точно формулировать фразы. но тут уж извините, ничем не могу помочь.
предлагаете определить какой-то смысл у чего попало?
оч сильно неконкретная задача же.
о, дополню немного
Возврат к ссылкам - ссылочное уже не то- слишком дешевые домены и хостинг, накручиваются (+ ссылки на ломе)
Поведенческие - уже ж. как минимум т.н. "подсказки" в хроме отправляют все, что юзер набрал в адресной строке. На траст юзер идет или по адресу или через избранное (которое тоже палится). Опять-таки, Хром достаточно популярен, а многие юзеры пользуются сервисами гугла и сохраняют авторизацию в браузере. Всегда можно увидеть накрутку в топовых темах (говносайты с 10 хостами в год - не в счет).
Массовое "трастирование" возможно даже ручное - вполне возможно, что для хитовых, дорогих тем оно уже есть. Гугл может запилить что-то типа яндекс.каталога/дмоза, только с более жесткой модерацией и перепроверками.
на которые они тратят наши деньги - наших денег там нет. гугл честно запилил годный поисковик, который позволяет юзеру найти искомое. Плюс, куча бесплатных сервисов: почта, карты, гугл.кип, плюс Андроид и многое другое. И тут не грех немного срубить бабла
на дальнейшее развитие проекта и новые фишки.
Кто-то может сказать, что гугл берет деньги с владельцев сайтов за рекламу в адвордсе. Ну так это не их вина, что в выдаче по умолчанию только 10 позиций, а на дорогие запросы - тысячи претендентов. Выбор бизнеса - личный выбор. Например, годных поисковиков в Рунете - всего два, а вот говнобизнесмены-посредники плодятся сотнями, создавая друг другу нездоровую конкуренцию.
К.м.к., будущее поисковика: больше ИИ для анализа текстов (отсеивание бреда, рерайта, малоинформативной "воды"), поведенческие факторы и траст, который формируется сложными факторами (одних ссылок мало).
в первом приближении уже есть алгоритмы, определяющие смысл.
например https://tech.yandex.ru/tomita/
чот не нахожу интервью с челом из яндекса, там он рассказывает про технологии, позволяющие писать выжимки из текстов новостей. грозился что к концу года новости на яндексе будут писаться автоматом.
а дальше все просто: из текста выбираются факты и сведения, чем меньше воды и больше данных- тем документ ценнее.
ПС учатся распознавать смысл текста. Когда это произойдет, уникальные (по шинглам) и уникальные (по смыслу) тексты можно будет отличать друг от друга. Соответственно, рерайт/генеренный текст будут ранжироваться ниже чем уникальный по смыслу.
Помимо смысла есть еще полнота информации, чем больше инфы - тем круче.
Ну а далее - поведенческие и все остальное, как обычно.
Соответственно, берутся статьи с сайта, оцениваются с точки зрения полезной инфы
Так же оценивается и сам сайт (по результатам оценки его контента)
да, значит сайт пометили как звено вцепи между юзером и потенциально опасным контентом
для поисковика адрес
http://сайт.ру/941-naprimer.html?53466
и
http://сайт.ру/941-naprimer.html
- разные адреса
соответственно, он будет индексировать все
и http://сайт.ру/941-naprimer.html?53466 и http://сайт.ру/941-naprimer.html?65432 и даже http://сайт.ру/941-naprimer.html?лысый_черт
если контент по разным адресам будет одним и тем же, то это не гут
гугль наказывает ваш сайт как звено в цепочке между пользователем и вирусным сайтом/файлом
у вас как редирект происходит ?
если header("Location: ") , то имеет смысл как-то обернуть этот редирект
например в away.php юзеру сначала пишете что сайт может быть опасен (всегда полезно написать это)
"для продолжения нажмите далее"
а "далее" обернуто в ноиндекс нофоллов и вообще не содержит никакой ссылки: редирект формируется джаваскриптом по клику на "далее"