off-topic. К слову о трафике. Александр, Вы вроде бы серьёзно интересуетесь поисковыми машинами - и в форуме Яндекса Вас видно, и здесь Вы активный участник. Если Вас интересует объективная информация, осторожней относитесь к данным Спайлога.
У нас была уже здесь дискуссия про то, как считает Спайлог, но я просто забыл самое очевидное объяснение. У меня произошло вытеснение после трёх мучительных раундов переговоров о покупке Спайлога Рамблером с сентября 2000.
Мы делали вид, что верим в честность Андереева, видно, на время и вправду поверили.
Теперь я снова вспомнил, отчего трафик у Яндекса такой якобы большой - и по реферерам, и по прочим таблицам Спайлога.
Дело во внутреннем трафике Яндекса.
Дело в том, что Яндекс - единственный поисковик из трёх лидеров, имеющий счётчики Спайлога на своих страницах.
И Спайлог считает за трафик переходы с "головы" на страницу результатов поиска.
Этакий сайт, на который почему-то приходит ну очень много людей с Яндекса - примерно столько же, сколько на все остальные сайты.
Андреев, когда мы его на собрании сетевых олиархов в октябре в Спайлоге об этом спросили прямо, всё отрицал. Но продолжал считать внутренний трафик Яндекса, я думаю. Поскольку на том же собрании Воложа спросили, почему на Яндексе 2 счётчика Спайлога на одной странице - и он отрицал это. А Лёша Тутубалин тут же провёл сеанс разоблачения магии - нашёл оба куска кода на большом экране в исходнике "головы" Яндекса. На что Волож сказал - ой! ну да, сейчас снимем, это, ну, просто недоразумение.
Мы, как джентльмены, натурально, не рассматривали подобное "грубое" объяснение лукавых цифр, особенно при самих виновниках торжества. Джентльмены не просят показать карты, вы знаете.
Но после "недоразумения" с Интел-премией, когда Волож - председатель жюри, этакий маленький Брежнев Рунета, занялся самообслуживанием и дал себе любимому шесть премий, из них половину - личных, у меня и всплыло это "грубое" объяснение.
Там кроме явной бестактности, также были и странности со счётчиком, не находите? Рамблер вплоть до закрытия голосования "Веб выбирает вас" шёл первым (12%, у Яндекса - 11%). А потом вдруг раз - и исчез из всех списков вообще. Но это к слову. Это бизнес. Чья была очередь сдавать, тот и насдавал тузов кому нужно.
Счётчики - не роскошь, а инструмент маркетинга. Я бы советовал сверять цифры Спайлога с другими источниками, а их довольно много.
Игорь Ашманов.
Ну вот, началась демократическая фразеология, словесная завеса, подначки типа "слабо стать демократом?". Давайте разберёмся.
Супер-идея - это значит, что Вам лично она очень нравится, правильно я понимаю?
Давайте всё-таки решим - для кого полезная?
Вот Андрей Иванов построил свою демонстрационную страницу, теперь она всплывает в результатах поиска, где надо и не надо. Андрею - хорошо, сообществу этого форума - нравится, знай наших! Цеховой интерес понятен.
А поисковой машине Рамблер это не очень полезно, Яндексу и Апорту - тоже. По крайней мере, сразу этой пользы не видно.
Но ведь и пользователям - тоже не очень. При запросе "расписание электричек" всплывает эта страница. Средний "чайник" (а их 90%) на глаз по заголовку не может определить, что это спам. Щёлкает по ссылке, одуревает, идёт обратно. Время слегка потеряно (на электричку можно опоздать, это не шутка, а реальный случай поиска расписания), уважение к поисковику поколеблено. Так ведь?
Да, создатели сайтов могут делать что хотят, у нас свобода, но мы работаем для пользователей. А пользователям нужно ну хоть какое-то ранжирование по смыслу, а не по степени "образованности" и ловкости вебмастера.
Мы генерируем трафик, поэтому мы нужны и вебмастерам, но в этих отношениях возникают шероховатости. Вебмастер недоволен тем, как его ранжируют, иногда справедливо, нам не нравятся попытки силового решения вопроса, когда вебмастер себя переоценивает или вообще не озабочен справедливостью.
Призывы к этакой демократии и "гласности" могут привести к доминированию хитрых и ловких.
Это пока что напоминает мне анархистские лозунги: государство не нужно, зачем полиция - всем раздать личное оружие, а полицию распустить! Понятно, что страной тогда овладеют самые аморальные и жестокие, умеющие объединяться в банды.
Я совершенно уверен, что если мы опустим наши инструменты релевантности, обеспечим полную гласность запросов, счастья не наступит: любезные Андрею, технически неграмотные, но интеллигентные философы и писатели не смогут противостоять спамерам и по слову "философия" всегда будет всплывать спаммерский сайт. А среди философов-вебмастеров будет преуспевать не самый философичный, а самый технически способный, то есть философ-неудачник или универсальный гений вроде Леонардо Да Винчи.
На самоорганизацию масс пока рассчитывать не приходится.
Разве что они с трудовым долларом в кулаке пойдут за услугами по оптимизации сайтов к знатокам? Это нормально, но тогда знаток и должен купить "сокровенный" статистический отчёт тоже за свои кровные, не так ли?
Поэтому, несмотря на отсутствие претензий лично к Андрею - он играет по правилам, нам придётся придумывать способы идентификации и фильтрации подобных сайтов (тоже в рамках правил).
Представьте себе, что Вы требовали бы непрерывно публиковать способы накрутки рейтинга Тор100. Например, публиковать исходные тексты Тор100, архитектуру софта, машин, сети. А нам нужно показывать истинно популярные сайты, а не сайты всяких ловкачей, Вы согласны?
А Тор100 генерит 300 тысяч кликов в день, это 1-2 миллиона долларов в месяц, если считать по коммерческим ценам за клик! Есть за что бороться ушлым парням. А нам приходится бороться с ними за объективность. Это наши будни, уж поверьте - два модератора непрерывно заняты разбором доносов, подозрительных хитов и так далее.
То же с почтой @rambler.ru. У неё почти 400 тысяч пользователей. В среднем обычных, нормальных людей. Но стоит чуть-чуть зазеваться, ею начинают пользоваться спаммеры, похабники и шантажисты. Да-да, шантажисты - пишут угрожающие письма кому-то, представьте себе, к нам идут жалобы, просьбы вычислить злодея. Или ругают собственное начальство с помощью @rambler.ru, а оно просит IP-адрес. Мы не даём, но сносим ящик. И так далее.
Здесь также невозможно иметь полностью "демократический", открытый сервис.
На что же мне решаться? Что за пряник вы предлагаете? Быть лидером гласности?
Пока не убеждает. Я же в президенты не баллотируюсь.
Что изменится в лучшую сторону для пользователей Рамблера (а к нам за месяц заходит 2,5 миллиона - 70-80% от всего Рунета), если мы выставим статистику? дайте аргументы.
Андрей спросил меня, что мы хотим за статистику? Я не знаю, что вы можете. Делайте ваши предложения.
Ну, положим, это не так уж просто. У Рамблера сейчас в день бывает до миллиона запросов. Дневной трафик не так интересен, а базы за месяц дают уже довольно большой объём.
Но основная трудность не в этом.
Трудность в том, что такое тематика.
Вот допустим, два запроса "амиксин" и "средства от гриппа" - явно одна и та же крупная тема - "Фармацевтика". Но Вашей программой этого не установишь, так ведь? Слова формально не имеют ничего общего.
Как Вы пишете на сайте, пользователь Вашей программы должен сам придумать возможные формулировки запроса по телефонии, чтобы подобрать статистику. Среди них будут и "телефон" и "мобила", наверно.
То есть сначала человеку нужно проделать некую почти неформализуемую работу.
Как я уже говорил, распознаватель тематики запроса уже работает у нас в результатах поиска - делает "перевязки" на наши разделы, (см. в поле над результатами). Только по фармацевтике используется несколько тысяч записей - шаблонов запросов. А всего их десятки тысяч. Естественно, собраны они не полностью автоматически, а с применением труда лингвистов.
Причём работать такой распознаватель будет всегда не на 100%, но тут и 70-90% вполне достаточно.
Насчёт выставления в онлайн - это вопрос ограниченности наших ресурсов. У меня ограниченный бюджет и масса жёстких планов по развитию портала в целом. Сколько в Рунете крутых ребят - любителей по-мужски, как следует оптимизировать сайты? На этом форуме - 140. Может ли Рамблер затевать даже небольшую разработку ради нескольких сотен ничего не платящих клиентов? Ведь на очереди у разработчиков множество бесплатных возможностей - но для десятков тысяч пользователей.
Я думаю, мы всё же будем публиковать какие-то отчёты, но какие - пока не решили.
Игорь.
Для того, чтобы иметь список частотных запросов по какой-то теме, нужно уметь автоматически распознавать тему запросов и группировать их. Это уже из области искусственного интеллекта, хотя в принципе возможно.
Либо это должны делать руками лингвисты.
Мы подготовили и недавно запустили такую технологию - так называемые "перевязки" результатов поиска с разделами Рамблера - вы можете увидеть, как они работают, но статистику пока не анализируем.
Навряд ли мы будем её публиковать. Это стоило нам значительного труда.
Я думаю, что примерно в течение месяца-полутора у нас появится отчёт, где будет и распределение запросов по частотности, и по темам, и по географии, по дням, и так далее. Будет прилагаться и диск с данными. Но отчёт этот мы будем продавать рекламным и маркетинговым агентствам за деньги.
База на самом деле несколько поновее, но проблемы есть - занимаемся новым индексом и железом. Короче, над базой работаем, скоро будет.
Кстати говоря, данный сайт стал появляться в результатах поиска - по запросу "энциклопедия поисковых систем" показывается на 4-м месте.
Gray, я Вам отправил письмо по поводу РИФа, посмотрите почту, а то что-то нет ответа.
Можно ещё добавить, что запрос в действительности не всегда так очевидно глуп, как кажется на первый взгляд.
Например, "стульчик" имеет целью найти сайт эротических рассказов.
То есть это тоже глупость, но иной, не статистической природы.
Александр довольно подробно описал возможные причины. Можно ещё добавить, что:
а) в некоторых организациях используются роботы, задающие поисковым машинам одни и те же запросы и выкачивающие/разбирающие результаты - компенсирующие отсутствие подписки на запросы. Этот робот может приходить несколько раз в день.
б) поведение массового пользователя обязательно имеет странности. Эти странности выражаются именно подобными всплесками. Всплески вообще характерны для систем массового обслуживания. Вполне может найтись и один человек, который по неизвестной причине всё время спрашивает один и тот же запрос (например, если он просто сошёл с ума, пьян или ему нечего делать) или вообще сделал его домашней страницей, поместил его в Favorites, и не знает, как это отменить.
Надеюсь, в нашем приличном обществе нет ни одного спаммера?
Я ни разу не слышал о том, чтобы списки частых запросов можно было купить.
Возможно, Рамблер будет продавать такие списки, предобработанные, с частотами, смысловыми категориями и прочей аналитикой. Но не сейчас. А пока - ловите верхние запросы за октябрь:
1 "рефераты"
2 "порно"
3 "реферат"
4 "гороскоп"
5 "sex"
6 "секс"
7 "знакомства"
8 "porno"
9 "чат"
10 "открытки"
11 "эротика"
12 "mp3"
13 "работа"
14 "халява"
15 "игры"
16 "сонник"
17 "поздравления"
18 "музыка"
19 "порнография"
20 "icq"
21 "из рук в руки"
22 "библиотека"
23 "chat"
24 "анекдоты"
25 "психология"
26 "погода"
27 "сочинения"
28 "xxx"
29 "земфира"
30 "чаты"
31 "порнуха"
32 "мебель"
33 "мода"
34 "русское лото"
35 "москва"
36 "фото"
37 "стульчик"
38 "картинки"
39 "философия"
40 "crack"
41 "детское порно"
42 "обои"
43 "хакер"
44 "драйвера"
45 "карта москвы"
46 "экология"
47 "история"
48 "анекдот"
49 "вся русская эротика"
50 "словарь"
51 "децл"
52 "экономика"
53 "lolita"
54 "referat"
55 "футбол"
56 "драйвер"
57 "новости"
58 "поисковые системы"
59 "anchornet"
60 "медицина"
61 "games"
62 "кино"
63 "книги"
64 "оружие"
65 "кулинария"
66 "ваз"
67 "маркетинг"
68 "mail.ru"
69 "санкт-петербург"
70 "литература"
71 "образование"
72 "эротические рассказы"
73 "тосты"
74 "mtv"
75 "свадьба"
76 "алсу"
77 "delphi"
78 "недвижимость"
79 "спорт"
80 "телефонный справочник"
81 "гороскопы"
82 "drivers"
83 "туризм"
84 "автомобили"
85 "курск"
86 "курсовые"
87 "радио"
88 "программы"
89 "тесты"
90 "выставки"
91 "цветы"
92 "банк рефератов"
93 "скрытые камеры"
94 "карта"
95 "интердама"
96 "украина"
97 "новосибирск"
98 "знакомство"
99 "драйверы"
100 "linux"
Да, новый поиск получше. Процесс ввода постепенный, потому что боимся резкого скачка нагрузки - она сейчас и так довольно резко растёт, по какой-то неясной пока причине - процентов на 15-25% количество соединений подскочило. То ли ищет лучше, то ли быстрее, то ли Яндекс с Апортом тормозят, то ли ещё что.
Кроме того, подключение новой техники тоже идёт постепенно - у всей компьютерной Москвы с нового года были проблемы с таможней, сейчас сервера и маршрутизаторы только-только начали появляться.
Завтра-послезавтра выставим группировку по сайтам, потом более свежий и почищенный индекс и так далее.
Здравствуйте.
Ответа всё нет и нет, потому что форум - всё-таки не книга жалоб с гарантированным временем ответа. Я не всегда его читаю, и не всегда есть время ответить. Сейчас мы верстали планы на год, так что было не до форума.
Ссылку сняли, потому что потестировали, получили обратную связь, исправили ошибки и заменяем текущий поиск на новое ядро. Машина с тестовой версией включается в поисковый кластер, а это - замена софта.
К понедельнику заменим, сначала в старом режиме - без группировки по сайтам, так что разница будет публике не очень заметна, потом через пару дней - с группировкой.
Это ядро будет пока работать с индексом старого типа - без координат слов в тексте.
То есть без поиска фраз, без цитаты, с более низкой релевантностью, чем могла бы быть.
Как я уже говорил, новый координатный индекс
появится только к конце февраля из-за перетряски аппаратной части и закупки новых серверов. Новые функции также будем подключать не разом, а постепенно.