Ashmanov

Ashmanov
Рейтинг
66
Регистрация
21.11.2000
Должность
"Ашманов и Партнёры", гендиректор

Насчёт того, какие запросы брать:

вообще ясно, что брать нужно частотные.

Иначе а) неясно, как брать - из головы? А какой принцип? Потом при желании можно будет легко оспорить представительность отчёта.

б) для произвольного списка посчитанная релевантность не будет связана с реальным распределением нужд пользователей.

Мы дали частотные запросы в Рамблере за май. Можно взять список из Яндекса - они везде примерно одинаковые. Другое дело, что однословные, двусловные и прочие нужно замешивать в той естественной пропорции, что указана в методике (0,5 однословных и так далее).

На самом деле я не могу и не хочу влиять на процесс. Я инициировал его, но Вы сами ведёте своё сообщество и выбор за Вами - насколько проработанную методику использовать. Если поставить цель в конце концов сделать достоверный и цитируемый источник, то нужно подходить серьёзно.

Например, в свое время известный Virus Bulletin вырос из компании средненького антивируса в самое авторитетное издание про компьютерные вирусы. Они просто делали и делали тесты. Ну и продвигали свой бренд аналитика.

Мы можем при необходимости оказывать консультации по математике и статистике.

В принципе, для облегчения задачи можно взять не пять, а три интервала - 10, 30, 50 первых документов, можно взять для начала и поменьше запросов, не 100, а 50, например.

Есть и более точные методики, но они более трудоёмкие.

Игорь Ашманов, Рамблер.

Originally posted by Fargalaxy:
Спасибо, Игорь, за ответ.
Пойду сейчас же регистрироваться.

Я пошёл посмотрел, как сайт "Далёкая галактика" ишется в Рамлере сейчас. Это довольно показательно.

а) На слова "далёкая галактика" вылезает множество астрономических страниц, фантастики. Сайта на первых шести страницах не видно. Объяснения два - первое: паук Рамблера вообще пока не дошёл, так что просто не заиндексировано.

Второе - слово "далёкая" слишком распространённое, встречается не рядом с "галактикой", а где попало, старое ядро Рамблера без координатной информации не различает близкое вхождение обоих слов и разнесённое.

б) Одинокое слово "галактика" выводит кучу ссылок про одноименную корпорацию и её софт. Ну, тут ясно.

в) запрос "астрономия галактика" выводит сайт первым - из Тор100. Победа. Хотя хостов на сайте мало, сайтов в Тор100 с этими словами в аннотации тоже немного.

На "галактика фотографии" сайт всплывает вторым.

Вывод - нужно аккуратнее написать аннотацию для Тор100, добавить больше фраз по теме. Лучш вставлять не общеупотребительные слова (по ним всё равно лидируют другие сайты с большей посещаемостью), а специальные, по теме.

В результате сайт должен чаще всплывать в той секции результатов поиска, гда замешаны сайты Тор100.

Чтобы получить больший эффект, дальше придётся а) раскручивать сайт другими способами, чтобы было больше хостов в Тор100, б) ждать запуска нового ядра Рамблера в декабре.

Кстати, в Яндексе три этих запроса результата не дали - сайт не виден. Может, другая техника построения запроса требуется, не знаю, возиться не стал.

Сайт я посмотрел, спасибо, красивые фото, покажу сыну.

Игорь Ашманов, Рамблер.

Рамблеровский паук обходит в норме раз в две недели; последнее время он хромал, не везде заходил и так далее. Нормальный режим восстановится с середины декабря.

Сейчас идёт очередная переиндексация всего Рунета заново, так что в середине декабря мы надеемся получить увеличенный и свежий индекс.

Если хочется побыстрее внести изменения, регистрируйтесь пока в Тор100 и вносите нужное описание в карточку ресурса. Толкьо в виде связного текста и без мусорных слов.

Тогда, если ваш сайт в своей специфической категории не самый худший (например, находится по запросу "маникюрные ножницы"), он сразу же, на следующий день попадёт в результаты поиска со своей карточкой ресурса. Это не касается слов типа "порно, рефераты, линукс".

Игорь Ашманов.

Возможно, я нечётко объяснил о чём речь, а возможно - в разных "жизненных" целях у нас с Вами.

Вам интересно раскрутить страницу, поднять её повыше в результатах, нам - понять какой поисковик лучше ищет.

Тут могло возникнуть взаимное недопонимание.

То есть тестирование, о котором я веду речь, не связано с тестированием способов раскрутки страницы, вставки ключевых слов, doorways, hallways, etc., так что и submit никакой делать не нужно.

Речь идёт о релевантности поиска на том, что в поисковике и так есть, на частых запросах публики.

Как я уже говорил, у нас есть внутренние цифры релевантности, примерно такие:

Р., Я., А., 02.2000 - 0.65, 0.85, 0.96

Р., Я., А., 11.2000 - 0.90, 0.96, 0.99

Цифры завышаются за счёт упрощения методики (релевантность имеет только значения 0 и 1), но относительный рост показывают. Видно, например, что релевантность поиска в Апорте пока лучше всех.

Хотелось бы такие цифры считать на независимом форуме, с открытой методикой и открытыми данными экспериментов.

Такое тестирование требует использования некоего объективного списка слов для тестирования и правильной оценки релевантности первых N результатов на всех трёх или более поисковых машинах.

То есть я говорил о ТОЧНОСТИ поиска.

Кстати, об объёме индекса Интернета, охвате (полноте) и свежести индекса, "мощности" языка запросов тоже речь не идёт.

Игорь Ашманов, Рамблер.

Длина URL не имеет никакого значения.

В ближайшие 3-4 недели мы запустим собирание документов в сайты (при показе результатов поиска), но и тогда отдельный документ будет показываться как обычно.

Просто если есть всего один документ в домене второго уровня, для поисковика он будет похож на сайт. Тогда его мы, наверно, покажем под видом сайта, а не оконечного документа.

Сейчас дизайн новой страницы результатов поиска ещё обсуждается - как именно и что показывать. Но порядок выдачи (кто выше) от этого не зависит. Над всем этим всё равно будет господствовать релевантность текста страницы.

Игорь Ашманов, Рамблер.

Я не знаю, как работает Ваш скрипт. Что он делает - как передаёт запрос, с какими параметрами?

Вообще кодировка на Рамблере обрабатывается в целом корректно. Но это когда запрос пришёл из браузера. Очевидно, Ваш скрипт передаёт недостаточно данных о предпочтительной кодировке.

Как и можно ли передать их через URL - спрошу у разработчиков. А вообще формат запросв меняется на поисковых машинах довольно часто.

Так что любой метапоисковый скрипт время от времени нужно чистить и смазывать.

Игорь Ашманов, Рамблер.

Основатели Google Брин и Пейдж применили в нём так называемый алгоритм PageRank, запрограммированный ими ещё в аспирантуре Стэнфорда.

Это некоторый способ вычислять вес страницы по тому, сколько на неё входящих ссылок в индексе, и насколько аворитетны сайты, с которых они приходят.

Естественно, возникает матрица ссылок всех страниц Интернета на всех - матрица инцидентности, сумасшедшей размерности, но очень разреженная. Они назначают для начала всем страницам ранг =1, а потом пересчитывают матрицу, учитывая важность ссылок - то есть вычисленный ранг входящих ссылок. Авторитетные страницы дают более авторитетные ссылки.

Через определённое количество итераций над матрицей процесс сходится и получаются ранги страниц, сильно отличные от 1. Там есть специальная эргодическая теорема о собственных векторах этой матрицы, которая и говорит, что процесс сойдётся.

В результате запрос про деятельность некоей фирмы выводит на первое место сайт самой фирмы, а не упоминания о ней в третьих местах, и так далее.

Собственно сам алгоритм всем известен, и борьба идёт за скорость вычислений, сжатие матрицы, упрощения, не влияющие на качество, за улучшения качества, и так далее. Сейчас реализация PageRank - тема курсовых работ в университетах.

Сейчас в алгоритм вводят уже категории сайтов - например, авторитеты, на которых все ссылаются (библиотека) и узлы, ссылающиеся на всех (Yahoo).

Кстати, именно пересчёт матрицы по авторитетности ссылок и не позволяет собраться малой тусовкой и давать ссылки друг на друга - это вряд ли поможет повысить ранг.

Игорь Ашманов, Рамблер.

Спасибо. Я дам описание методики тестирования, но только в понедельник к вечеру - мне нужно, чтобы его подготовили для форума - упростили и и сократили.

А сейчас мы играем в ЧтоГдеКогда (суббота, ОРТ, 22-00) и до понедельника все стоят на ушах.

Правда, всё равно будет текст достаточно длинный - на пару экранов минимум.

Здесь, как в любом деле, нужен организатор (модератор), который будет собирать данные от остальных и сводить в таблицу.

Если админ Gray подходит (сам согласен, другие участники тоже) - замечательно.

Игорь Ашманов.

Ситуация с Рамблером:

В принципе, Рамблер обновляет индекс раз в две недели. То же относится и к вручную зарегистрированным сайтам.

Однако в процедуре возник сбой и осенью какое-то время с сайтами, занесёнными вручную, были проблемы. Нас захлестнул вал писем. Сейчас мы эту проблему залечили и с декабря всё должно быть нормально. Здесь ещё наложился upgrade железа и прочие проблемы.

Я думаю, что с середины-конца декабря зарегистрированные вручную сайты будут находиться в поиске Рамблера через один-два дня.

Игорь Ашманов, Рамблер.

1. Насчёт орфографии в Ворде - дело в том, что модуль был продан Микрософту в 1994 г., причём чохом и вместе с исходниками (всего за $100,000 за четыре модуля - спеллинг, тезаурус, стилистический корректор и переносы). Я тогда был руководителем разработок в Информатике, а в 1995 уже открыл МедиаЛингву. Разработка ОРФО вяло велась и дальше, но в составе MS Office

с тех пор, возможно, словарь и не обновлялся, потому что MS это в общем до лампочки. Есть галочка, что есть спеллер и прочее для русского - и ладно. Таких "фич" в Ворде ещё 500, так что они не берут в голову. При покупке они устроили придирчивый тендер, наняли "чёрного оппонента", где мы выиграли с большим отрывом от Прописи и Houghton Mifflin, а потом они выбросили качество проверки из головы.

2. Насчёт статистики. Мы пока закрыли даже ежедневный список наиболее частых запросов, потому что его использовали спаммеры (всякие "секс, порно, рефераты, гороскоп, линукс, карта Москвы"). Здесь действительно идёт борьба - для некоторых держателей сайтов поисковик - это средство раскрутки, для нас - же главное релевантность. Ну, это объяснять не нужно.

В принципе, мы собираемся публиковать статистические отчёты и по Тор100 и по поиску; я думаю, где-то в 1-2 квартале 2001 мы встроим публикацию статистики по находимости и кликабельности конкретного URL в результатах поиска. Будем также показывать и ссылочный индекс. Что ещё - пока не знаю.

А спаммеров я рассчитываю просто распознавать по семантическому образу "мусорного" сайта, так что знание частых слов помогать перестанет.

Игорь Ашманов, Рамблер.

Всего: 359