Eladi

Рейтинг
22
Регистрация
22.09.2007

Отдельный хостинг под каждый сателлит с уникальным IP - это вы загнули :). Оптимально пару shared хостингов, можно один.

tigga:
В общем сеня всю ночь не спал, мучала меня фраза response о ручной модерации выдачи. Сеня в ответ помучал свою знакомую, чтоб кровь из носа узнавала...
В общем новости не утишительные... Отдел как раз таки и занимается РУЧНОЙ модерацией выдачи. Основные направления- наша тема и дубль контента.

Спать надо было, сон - полезен :). Ручная модерация - это в стиле Яндекса, как многие его начинания (Директ тот же). Что ж пожелаем трудягам-модераторам работать, работать и еще работать, чтобы выдача была чище, ГС меньше, ну а мы тоже чего-нибудь придумаем 🚬

mamonic, есть еще один вариант с помошью .htaccess, у меня работает без проблем:


<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_USER_AGENT} Googlebot
RewriteRule .* - [F,L]
</IfModule>

Если не работает, значит mod_rewrite отсутствует или не включен.

Ваши ситуация, господа, скорее всего связана с этой новостью:

Роман Грачёв, руководитель группы разработки робота компании «Яндекс», сообщил Searchengines.ru, что «сокращение количества проиндексированных Яндексом страниц связано с внедрением нового алгоритма удаления дублей. Это внедрение позволит показывать на выдаче больше разнообразного контента».

А вылетели, скорее всего по-этой причине (Яшеному глюку):

«Стоит отметить, что после 3-го марта были найдены сайты с уникальным контентом, но имеющие шаблонную вёрстку, которые исчезли из индексной базы. Думаю, это недоработка в алгоритме, которая в ближайшее время будет устранена»

Сайты имели одинаковый шаблон и движок?

vitvvs:
а ты не исключаешь что "хорошая человек" и если весь текст состоит из таких словосочетаний, то по выдаче такой сайт будет стоят ниже чем правильные?

Насчет ранжирования ХЗ, скорее всего нет.

Чтобы узнать наверняка, можно провести эксперемент:

делаем две страницы с левым ключем, один с плохим контентом, другой с нормальным. Плотность и пр. одинаково. Ставим одинаковые ссылки. Смотрим результат.

vitvvs:
ты притворяешься?
леммы (лексемы) не относятся к морфолгии?

Так без наездов.

Другая тема = морфология поисковых запросов, которые в этой теме не обсуждаем.

Когда я говорил про "учет морфологии" текста, я имел ввиду что Яше будет глубоко пох, написана фраза морфологически правильно в ТЕКСТЕ СТРАНИЦЫ: "хороший человек" или "хорошая человек", и пессимизации за правильность написания не будет. Ключи и их употребление это другой разговор 🚬

Обе выдачи соответствуют леммам словосочетания "пластиковые окна". Лучше, понятное дело, употреблять все леммы или наиболее употребляемые при генерации контента. Семантика ТЕКСТА СТРАНИЦЫ особой роли не играет.

vitvvs:
а разве яндекс не учитывает морфологию? насколько мне известно вы ошибаетесь.
ознакомьтесь http://download.yandex.ru/company/iworld-3.pdf

Конкретно они открыто не говорят, что и как они учитывают. Из того документа, ясно что

все же основная масса языков требует хотя бы минимального
уровня лингвистической обработки. Не вдаваясь в подробности, приведу только
список задач, решаемый лингвистическими или окололингвистическими приемами:
• автоматическое определение языка документа
• токенизация (графематический анализ): выделение слов, границ предложений
• исключение неинформативных слов (стоп-слов)
• лемматизация (нормализация, стемминг): приведение словоизменительных
форм к «словарной». В том числе и для слов, не входящих в словарь системы
• разделение сложных слов (компаундов) для некоторых языков (например,
немецкого)
• дизамбигуация: полное или частичное снятие омонимии
• выделение именных групп

и что они вероятнее всего не делают:

Еще реже в исследованиях и на практике можно встретить алгоритмы
словообразовательного, синтаксического и даже семантического анализа. При
этом под семантическим анализом чаще подразумевают какой-нибудь
статистический алгоритм (LSI, нейронные сети), а если толково-комбинаторные
или семантические словари и используются, то в крайне узких предметных
областях.

Да лемматизация упоминается, ну это и в принципе и ожидаемо, при поиске необходимо приводить в фразы в «словарную» форму. Но это не означает что Яша будет оценивать фразу "безногие девушка приползет" и пессимизировать (фильтровать, банить) за это. Семантика, скорее всего в далекой и неясной перспективе.

HorrorTM:
Забыли слово "сейчас" перед словом "живут".
Посмотрев выдачу и отловив доры работающие в данный момент можно без труда понять, что в выдачу попадает любое уг в плане текста. Но те кто смотрят вперед, понимают, что такая ситуация не будет вечной. Кстати столь любимый всеми vesna.yandex.ru, на мой взгляд, является легким предупреждением...
Собственно "сани" надо готовить летом... Попомните мое слово.

Посмотрите на Google, он как 5 лет назад ел морковку так и сейчас ест. И двигается флагман рынка в другом направлении.

Если Яндекс начнет учитывать морфологию и что еще сложнее семантику предложений страницы и сайта в целом, уйдет вниз определенное множество сайтов, и среди них белые, которые несут полезную информацию. Это не тривиальная задача, в которой много исключений. Определение грамотно составленного текста не гарантирует, полезность этого текста для пользователя. И наоборот полезный для пользователя контент, может быть и не грамотным. Хотя это в принципе решать Яндексу, он лучше всех знает, что полезней для пользователя :)

Примера текста так и дождался. :(

Что же касается генерации контента, то стоит ли так напрягаться, если у меня, например, отлично в Яше живут доры с примитивным перемешываем/заменами? Имея большой (>50МБ) базис предложений, можно генерить контент и генерить. Есть много примеров живучих доров с текстами, без, различные алгоритмы и структура. Получить на выходе осмысленный текст при таком подходе не получиться, а достичь удобочитаемого контента -- задача совсем другого направления.

Всего: 109