Чтобы искать, не нужно быть сыщиком -- у меня это заняло ровно две минуты, хотя я не знал вашего URL. :)
Вот эта страница вам "напакостила":
http://www.professional.spb.ru/casinos.htm
Она приводит ссылку "http://www.dixie.com.ua/ru/index.jsp/", но Яндекс считает www.dixie.com.ua и www.dixie.kiev.ua зеркалами.
С уважением,
Александр Садовский.
Он уже обсуждался на этом форуме.
Реальное -- нет, но избавиться от "ничего не найдено" можно. В помощи Turltle некорректно описан синтаксис запросов, я об этом сказал на их форуме. Добавьте перед URL "http://", и все будет путем. Хотя что означает эта выдача -- известно только Turtle, скорее всего просто документы, в которых есть фраза "http:/".
Когда MSN включил это, не знаю, а Inktomi реализовал такую возможность уже давно, добавив поддержку следующих языков:
Черепаха, похоже, разрабатывалась без учета достижений современной науки. PageRank тут уже обсудили, оказывается, то же самое касается и стратегии обновления документов. В литературном пресс-релизе написано:
В то же время, исследования показывают, что оптимальная частота переиндексации страницы вовсе не пропорциональна частоте ее обновления, как кажется интуитивно. Оптимум будет гораздо ближе, если переиндексировать страницы равномерно, независимо от скорости их обновления.
Не очень -- они перемешивают запросы, а не сортируют их по времени, к тому же запросы, давшие ноль результатов, не публикуются, то есть длинные фразы в этом чате не будут услышаны. :)
Уже пробовали -- я писал о поисках счастья и многих других вещах. :)
1. База, судя по их заверениям, раза в полтора больше, чем база Яндекса по объему. Похоже, что Тартл использует для расчета "грязный" html (с тегами), а Яндекс "чистый" -- у Тартла средний размер документа 25Кб, у Яндекса -- 17Кб. По числу документов Тартл превосходит Яндекс только на 20%.
2. В Тартл не работает по-умолчанию группировка по сайтам. Странное решение, если большинство ведущих поисковиков (Google, Яндекс, Рамблер и т.д.) давно пришли к выводу, что это более удачный вариант.
3. Ни PageRank, ни ссылочное ранжирование не используются, или им придали крайне малый вес.
4. При запросе из 3 и более слов практически всегда слишком большой вес придается одному из слов, в итоге результаты поиска совершенно нерелевантны. Например, в одном из документов содержатся все слова "коэффициент затухания результат работы PageRank", но результат поиска впечатляет -- ничего похожего.
5. Индексируются xls-файлы и, наверное, другие распространенные форматы.
6. Есть интересная возможность ретроспективы документа -- увидеть несколько его версий.
7. Интересная возможность поиска по фрагменту.
Евгений, вот замечания по статье:
1. (Предсказуемое) Закономерности, выявленные по одному прилагательному, не обязательно распространяются на все слова данного типа. Легко привести контрпримеры:
На мой взгляд, более грамотно было бы получить примерные данные по нескольким десяткам запросов, провести их классификацию, и затем уже привести по одному примеру каждого вида.
2. Некоторые графики требуют более подробных объяснений, а лучше простого примера, как они получались -- без этого статья читается трудно.
3. Вывод о том, что многие трехсловные запросы появляются как результат уточнения двухсловных, неправомерен -- это, скорее, непроверенная гипотеза. Если посмотреть самые популярные трехсловные запросы, то видно, что многие из них формировались изначально, а не построены путем уточнения: "украинские поисковые системы", "регистрация в поисковых системах", "поисковые системы интернета" и т.д. Даже если взять малочастотные трехсловные запросы, ситуация не меняется: "локальная поисковая система", "все о поисковых системах", "адреса поисковых сайтов", "построение поисковых систем", "рейтинговые поисковые системы", "поисковые системы ижевска" и т.д. Очевидно, что все эти запросы сформированы сразу. Следовательно, я склонен считать, что гипотеза не оправдается, хотя для доскональной проверки у нас недостаточно данных. Может, Илья подскажет, как все обстоит на самом деле?
4. Вывод о методах раскрутки, применимой к "цветкам", "вершкам" и "корешкам", делался на основании частот запросов, что некорректно. Это совсем не то же самое, что конкуренция по запросу, которая определяет метод раскрутки, хотя обычно эти два показателя коррелируют.
Но в целом очень интересно, спасибо за исследование.
Нет, не расценит. Если страницы разные по содержанию, то нет никаких причин запрещать их из-за особенностей наименования. В рунете сотни тысяч Ивановых, но это еще не повод для провайдеров давать доступ только одному Иванову.