- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Gray
Подозреваю, что мужчина, могущий пролить свет на сию проблему в отпуске. Ничего, на днях выйдет и просветит :)
Есть еще БигМир, в принципе. Но я так понял, что дело не в технических проблемах, а в политических. Тут никакой Прайсвотерхауз не поможет. Хотя, положа руку на сердце, я после корпоративных шкандалей в штатах любому, даже легко накручиваемому, счетчику верю больше чем аудиторам :(
Илья, благодарю за замечания и поправки. Сожалею, если своими высказываниеми задел Вас и команду разработчиков Яндекса.
Основной недостаток текста на runet.ru даже не в том, что он излишне эмоционален, а в том, что там все вырвано из контекста. Я сам, честно говоря, очень удивился, когда прочитал его там в таком виде. Ну да ладно, постараюсь восстановить утерянное.
Основное, о чем я там говорил - это то, что числа, которые показывают поисковики, нельзя напрямую сравнивать. Повторю свои тезисы более развернуто - с учетом Ваших поправок.
1. Нельзя сравнивать количество найденных серверов.
При одинаковом количестве найденных хостов то, что Рамблер называет "сайтами" и то, что Яндекс называет "серверами" - разные вещи и их количество нельзя сравнивать.
Мы в один элемент списка найденного всегда склеиваем документы с сайта www.xxxx.ru и xxxx.ru на этапе поиска. Поэтому у нас 2 найденных хоста (www.xxxx.ru и xxxx.ru) считаются одним найденным сайтом. Да, это не совсем корректно, есть случаи, когда xxxx.ru и www.xxxx.ru содержат разную информацию. Но сейчас наш способ подсчета
найденных сайтов работает именно так. Кстати, и разные порты одного хоста мы также объединяем. Также мы на runtime клеим и зеркала, хотя и не очень эффективно.
Яндекс, насколько я могу судить об этом снаружи, устроен по другому - там есть отдельный робот, который ходит по сети независимо (или почти независимо) от основного и принимает решения, что такие-то сервера суть зеркала и один из них не надо больше показывать. Это очень хорошее техническое решение, мы сейчас дополнительно к нашему сегодняшнему механизму делаем ровно такую же штуку, но из этого с
очевидностью следует, что пока этот дополнительный робот "зеркалатор" не добрался до кого-нибудь, сайты "живут" несклеенные. На первой странице такое случается редко, пользователи действительно не страдают, но на подсчете отражается.
Я когда-то сделал очень простую вещь - автолюба-образной программой вытащил списки найденного и построил список хостов, отсортировав его как в Зализняке - начиная с последней буквы. Там такие повторы хорошо заметны. Я сейчас специально подобрал запрос, на котором это можно увидеть:
http://www.yandex.ru/yandsearch?text=%C2+%FD%F2%E8+%EF%FF%F2%FC+%EA%E8%EB%EE%E1%E0%E9%F2+%E2%E5%E1-%E4%E8%E7%E0%E9%ED%E5%F0+%E4%EE%EB%E6%E5%ED+%F3%EC%E5%F1%F2%E8%F2%FC+%E2%F1%E5+html-%F4%E0%E9%EB%FB
http://vokruginfo.ru/news/news268.html
http://www.vokruginfo.ru/news/news268.html
Бывает и обртное - мы считаем сайтом подкаталог, начинающийся с тильды
(www.chat.ru/~vasya/...) и поэтому на некоторых запросах при одинаковом количестве найденных хостов мы "насчитаем" больше сайтов, чем Яндекс - серверов.
2. Количество уникальных документов.
Начнем с конца - в Яндексе БОЛЬШЕ документов. БОЛЬШЕ. За счет двух вещей:
1) выкачка динамики и более мягкие правила отсева URL (нет дискриминации по портам и т. д.)
2) автоматическое хождение в зоны .com, .net, .org и т. д. за русскими документами.
А вот делать выводы из срвнения автолюбой нужно с осторожностью, так как разница этих чисел в 40% для пользователей может быть незаметна. И уж конечно, нельзя говорить, что полнота поиска ниже на 40%.
В том внутреннем документе сделано было вот что:
1) взяты списки найденного по однословным запросам (в том числе, конечно же, сигариллы, переверсия и т. д.). Было 10 тыс. URL. Взяты, конечно же, не со стандартной ответной страницы, а со страницы, где результаты не группированы по сайтам - так заметнее дубли.
2) с соответствующих серверов взят robots.txt и выполнена прочистка. Кстати, были хосты с некорректными robots.txt (на одном хосте даже выдавалась главная страница сайта) и был сайт, где Яндексу можно было ходить в каталог /cgi-bin/, а рамблеры - нет. Пришлось для этого сайта притвориться Яндексом :-)
3) выкачаны страницы. Таймауты в 300 секунд считались отсутствием документа. Так, конечно, нельзя, основной наш робот такие страницы удаляет только когда они несколько раз подряд тайм-аутятся, но в рамках эксперимента это, думаю, все же допустимо.
4) напущен наш индексатор и подсчитано, сколько раз он сказал "document is not text" и сколько "наклеил" дублей. Отсюда и числа.
Как видите, отличия от Автолюбы небольшие, но есть.
Отсев URL на каждом этапе - вещь совершенно нормальная. Она показывает, насколько поисковик отличается от идеального, в котором информация обновляется мгновенно. На Рамблере, кстати, сегодня будет намеряно одно число, а к выходным - другое (к выходным должна "выкатиться" новая база).
Еще пример из жизни - был терабайт, выполнили прореживание дублей и стало на 7% меньше. Запустите автолюбу до - получите одно число, после - совсем другое.
Поэтому плохо, когда журналист берет два поисковика, дает им одно и то же слово, и говорит, что в Яндексе в два раза больше информации, не задумываясь о том, что вся, скажем, 30-ая страница Рамблера содержит мусор, а 47-ая страница Яндекса - сплошные дубли.
Чистый от даких явлений эксперимент - запросы, по которым Яндекс хоть что-то находит, а Рамблер - нет. Пример: дефлограция.
3. Все/не все слова запроса
Я проделал простой эксперимент - взял частотные двух-трехсловные запросы, по которым находится небольшое количество документов. В ответной странице Яндека появились "нестрогие соответствия". Конечно же, нечеткий поиск во многих случаях очень полезен - найдется хоть
что-нибудь. Мы в этом смысле хуже - просто говорим, что ничего не найдено и оставляем пользователя наедине с его запросом.
Только вот плохо, когда по числу найденных по таким запросам документов судят о полноте базы (автолюба, этого, разумеется, не делает).
В заключение: я регулярно спрашиваю всех своих знакомых каким поиском они пользуются и почему. Так вот, половина народа говорит, что им нравится желтый цвет, а синий - раздражает, а другая половина - что желтый цвет раздражает, а синий - наоборот, нравится. Вот и оптимизируй после этого поиск :-))
P.S. Спайлоговский счетчик "только поиск" стоит кроме ответной страницы еще и "на голове" (его номер, если я не ошибаюсь, 9940). Он же - и на ya.ru. Вот и сравнивай после этого статистики.
Грею: конечно, в принципе нужен счётчик, независимый, красивый, быстрый, точный. Дерзайте! Мы накидаем пожеланий по функциональности. Если, конечно, есть 20-30 килобаксов на обзаведение на первое время. А потом нужно будет ещё тыщ 100-150 на год. Дешевле вряд ли получится - там есть "несжимаемые" железо и трафик.
Предлагаю обсудить вопрос создания такого счетчика в отдельном топике
Ворос г-ну из команды Рамблера, если у вас такой уникальный алгоритм, почему в базе индекса рамблера всего 2 ссылки на мой сайт. Я всеми возможными способами пытался узнать есть ли еще, но как оказалось нет. в то время как яндекс проиндексировал более 1500 страниц, это с учетом версий для печати и страниц с коментариями.
Прошу ответить на мой вопрос.
(п.с. в этот топик я попал из яндекса, это так к слову)
К сожалению, есть еще один параметр, о котором интервьюруемый тактично умолчал. Активность роботов. Естественно, никаких обобщений.
420 0.23% Yandex/1.01.001 (compatible; Win16; I)
240 0.13% Yandex/1.03.000 (compatible; Win16; M)
179 0.10% Yandex/1.01.001 (compatible; Win16; P)
62 0.03% Yandex/1.01.001 (compatible; Win16; H)
1 0.00% Yandex/1.03.003 (compatible; Win16; D)
1 0.00% Yandex/1.01.001 (compatible; Win16; i)
20 0.01% StackRambler/1.4
Активность Фаста и Гугля не привожу из сотрадания к господину Шабанову. А остальное - лирика.
твой сайт роботы не любят, вот мои данные за месяц ;)
зы... вру статистика начала собираться с серидины месяца ;)))
FAST-WebCrawler/3.8 (atw-crawler at fast dot no; http://fast.no/support/crawler.asp) September 7463
Googlebot/2.1 (+http://www.googlebot.com/bot.html) September 5758
StackRambler/2.0 September 2218
Yandex/1.01.001 (compatible; Win16; M) September 744
Yandex/1.01.001 (compatible; Win16; I) September 613
FAST-WebCrawler/3.8/Fresh (atw-crawler at fast dot no; http://fast.no/support/crawler.asp) September 30
Yandex/1.03.000 (compatible; Win16; M) September 28
Mozilla/4.0 (compatible; MSIE 5.0; YANDEX) September 20
Yandex/1.03.003 (compatible; Win16; D) September 10
Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html) September 1
Aport September 1
mnt, я так понимаю это ответ мне?
Обращайте внимание на год!
Нет, это ответ мне :) mnt, посмотри на год предыдущих сообщений, я даже уже не помню, с какого сайта эта статистика, не то чтобы сообразить, за сколько дней месяца она.
Зато как приятно было перечитать всю забтую дискуссию! :)