AiK

AiK
Рейтинг
257
Регистрация
27.10.2000
Должность
SEO consultant
Интересы
Astronomy

Не уверен, но что-то мне подсказывает, что и

Disallow: /sitemap

директорию не запрещает :)

Я бы писал так

Disallow: /sitemap/

Говорю Вам как виндовый программер

Я это знаю :) Но для робота они-то разные!

Даже /sitemap/default.asp, в запрете которой сомневаться не приходится!
Disallow: /sitemap/Default.asp

Сразу видно виндового программиста :) Для справки:

/sitemap/default.asp и /sitemap/Default.asp - вообще говоря разные документы. Т.е. запретили одно, а робот ходит к другому.

rfc2616 quotation


3.2.3 URI Comparison

When comparing two URIs to decide if they match or not, a client
SHOULD use a case-sensitive octet-by-octet comparison of the entire
URIs, with these exceptions:

- A port that is empty or not given is equivalent to the default
port for that URI-reference;
- Comparisons of host names MUST be case-insensitive;
- Comparisons of scheme names MUST be case-insensitive;
- An empty abs_path is equivalent to an abs_path of "/".
Characters other than those in the "reserved" and "unsafe" sets (see RFC 2396 [42]) are equivalent to their ""%" HEX HEX" encoding.

For example, the following three URIs are equivalent:
http://abc.com:80/~smith/home.html
http://ABC.com/%7Esmith/home.html
http://ABC.com:/%7esmith/home.html

Как видно, нечуствительны к регистру только схема (http://) и имя хоста.

а хелп почитать пытались?

На момент написания я думал, что хелпина отсутствует как класс - из программы она почему-то не вызывалась. Кроме того, меня очень "порадовало" постоянное сообщение, что структура tags.ini нарушена. Изменение числа поисковиков в списке к видимым изменениям результатов не привело. Галка "учитывать/не учитывать тэги" тоже.

м... вобщем что-то в этом есть. Если бы ещё понять как цифирьки релевантности считаются... Очень похоже на то, что что тупой подсчёт количества повторов :(

но формально в этом случае он прав

М-да, писал по памяти, поэтому "почта" приплёл зря :(

Но сравните результаты выдачи Апорта и Рамблера по запросу "почитать".

Никакой почтой там и не пахнет :)

Я вам, коллега, как бактериолог офтальмологу, дам справку. В его честные глаза взглянуть вряд ли удастся. Это А.А.Зализняк, величайший русский лингвист современности.

Спасибо, Игорь. Страна должна знать своих героев. Теперь я знаю кто виноват :). Это я и имел ввиду под фразой "взлнянуть в честные глаза".

Но он вряд ли будет встречаться с развязным оптимизатором, давно поражённым интернет-зависимостью в n-й стадии

На счёт развязности Вы пожалуй правы, про зависимость Вам наверное виднее, а вот с термином "оптимизатор" в данном контексте категорически не соглашусь - я писал как пользователь. Как оптимизатор я только рад таким ошибкам - если хорошо подумать, то возможно из этого можно и пользу кое-какую извлечь. Надо только поиск таких фич поставить на промышленной основе :)

Этот великолепный словарь не был предназначен для компьютерного использования.

Ну с этого и начинать надо было. Значит виноват не Зализняк, а тот кто первый стал использовать этот словарь не по назначению :).

А отключить морфологию в Рамблере или Яндексе не пробовал?

Идея хорошая, но не практичная - ещё поискать надо где её отключить можно. Гораздо проще при необходимости отключения морфологии для какого-то конкретного запроса воспользоваться поиском Гугля.

А теперь я попрошу ещё одну справку: не могли бы Вы провести краткий ликбез, как работает, например Рамблер с этим замечательным словарём?

То, что словарь запросто даёт переход от почитать к почти, а от почти к почта через почту, возможно это и есть хорошо. А вот то, что поисковик даёт переход от почитать к почта - это плохо. Адназначна! Неужели проблематично выбросить автоматом те переходы, которые осуществляются через совсем другие части речи? Т.е. в цепочке

почти-почту-почта выкинуть последний элемент, как заведомо неверный?

Просто на том основании, что почта имеется в словаре как самостоятельная, а не производная единица? В Апорте похоже именно так и поступили.

Спасибо за уделённое время.

ссылок меньше

Спорное утвердждение. И у меня в запасе ещё есть ваша же страшилка про утекание PR по внешним ссылкам :).

не весь Каталог, а только нужную часть.

А вот это уже весьма сомнительная затея. Практически любой раздел в Top/World/Russian проиграет как по полноте так и по качеству практически любому специализированному каталогу. А для того, чтобы добавить интересную для своих посетителей ссылку надо идти на поклон к ДМОЗу или быть его редактором. Не проще ли свой каталог создать? :)

кто-то просто иногда исследует?

Ну почему сразу и исследует? Во-первых, человек мог найти Ваш сайт, а потом забыв url, повторно воспользоваться поиском. Кроме того, некоторые люди таким странным способом осуществляют навигацию по сети.

Я два года недоумевал, откуда в topwords например lycos.com такое немерянное количество упоминаний например www.altavista.com. И наоборот. Сначала я подумал, что это они друг-друга рекламируют. Потом подумал, что на западе слишком много дебилов :). И только в прошлом году, прочитав то ли Круга, то ли Нильсена, я нашёл вполне разумное объяснение такому странному феномену. Оказывается, существует довольно большое количество вполне вменяемых людей, которым просто не объяснили (или не совсем корректно объяснили) как пользоваться браузером. Домашней страницей у них установлена какая-либо из поисковых систем, и когда им необходимо перейти на какой-то известный им сайт они просто набирают URL в строке поиска. А дальше работает простой принцип - если ты умеешь пользоваться Ctrl+V и он тебя устраивает, то искать другой способ (например Shift+Insert) просто не будешь :).

М-да, Сергей, не ожидал я от тебя :)

я хочу увеличить свой сайт

А зачем? Посетители будут случайные, разве что банеры крутанут.

Есть потенциальная опасность, что поисковики увязнут в дмозовском каталоге и на реальный контент не будут обращать внимание.

Я около года разрешал поисковикам индексировать импортированные новости. Оч. удобно было - места на сайте не занимается, а посетители идут. В отдельные дни до 100 человек было. Одно плохо - заглавная страница месяцами не переиндексировалась, соответственно на новые ценные страницы поисковики не заходили. От чужого контента отдачи не много.

Всего: 3256