funsad

Рейтинг
116
Регистрация
15.11.2000
Первоначальное сообщение от Gray
За три недели в базе появилась одна статья - даже и смотреть, о чем она не захотелась. Кстати, там она единственная.

Речь не о реализации (там, кстати, десяток статей, а не одна), а об идее. Если проект удастся развить, было бы хорошо -- я считаю, что он может быть довольно полезным.

С уважением,

Александр Садовский.

Первоначальное сообщение от Nicon
Пытался ли кто-нибудь сравнить показания сразу нескольких? Полная каша выходит:(

Хочу заметить, что все отчеты при анализе статистики, которые играют важную роль, основаны не на абсолютных числах. Они основаны на динамике изменения показателей. Алгоритм счетчика, как бы он плох не был, остается во времени неизменным, поэтому, не так важно, было вчера с Рамблера 50 и 100 посетителей, гораздо интересней, растет этот поток или падает.

С уважением,

Александр Садовский.

Первоначальное сообщение от savel
Не вполне понял топик. Вопрос о том где брать контент для своего сайта? Если таскать с других сайтов, то какой в этом смысл для вменяемого сайтостроителя.

Таких ситуаций может быть немало. Например, человек не может быть универсалом во всех темах. Если на сайте об огороде хорошо описана работа с овощами, но осталась нераскрыта тема зелени, не лучше ли перепечать две статьи об укропе и петрушке, чем заранее приучать посетителя к мысли, что на сайте он может и не найти нужной ему информации? Зачем, думаете, Microsoft лицензировало и покупало кучу мелких программ, поставляемых с Windows (вроде тех, что доступны через меню Accessories)? Они, теоретически, могли написать их сами или не включать.

С уважением,

Александр Садовский.

Первоначальное сообщение от Pegiy
Единственное, что там не хватает это возможности накладывания на них различных фильтров.

В таком случае, думаю, проще организовать связку с каким-либо пакетом анализов логов. Свои отчеты вряд ли будут столь хороши и красивы, как у профессионального пакета анализа. Я выбрал WebTrends, хотя можно было выбрать и любой другой пакет -- по заданным критериям вначале делаю выборку сессий, а затем просто отдаю ее на съедение стандартному анализатору.

С уважением,

Александр Садовский.

Первоначальное сообщение от Vyacheslav Tikhonov
Можно ли как-то теоретически обосновать выдвинутую гипотезу или это чистая эвристика?

Думаю, что есть и обоснование гипотезы. По крайней мере, интуитивно понятно, что с увеличением выборки документов, которые содержат нужное слово, падает процент релевантных документов. Чем больше частота слова, тем, как правило, больше число контекстов, в которых оно встречается. А пользователь ищет только один контекст.

Следовательно, если все слова запроса являются ключевыми (а не просто незначащие прилагательные или глаголы), то больший приоритет редким словам должен давать лучший результат. Но это, как я уже заметил, не работает в случае, когда пользователь пишет запрос на естественном языке. Например, запрос "поисковики релевантность" (частоты в Яндексе 140503 и 19427) прекрасно отвечает требованиям алгоритма, но уже запрос "терминологическое понимание релевантности поисковиков" (частоты 48652, 1136643, 27526 и 199321) будет отрабатывать заметно хуже.

С уважением,

Первоначальное сообщение от Aanna
адреса русскоязычных поисковых систем новостей:))

Вот еще несколько систем:

http://uaport.net/UAnews/

http://www.topnews.com.ua/

http://www.lenty.ru/

С уважением,

Александр Садовский.

Первоначальное сообщение от Pegiy
Но почему бы им не добавить возможность накладывания различных фильтров (в данном случае: хиты к хостам для пользователей со все ссылающих доменов и отдельно по каждому)?

Примерно такая возможность есть в новом счетчике SiteST, который пока находится в стадии тестирования. Насколько мне известно, он создан Константином Тимошенко, автором NTBA, и изначально будет платным (пока ни с кого денег не берут). Так как у каждого участника NTBA есть счет, где накапливаются деньги за клики по рекламе, скорее всего, можно будет рассчитываться за просмотр отчетов счетчика без денежной оплаты.

Если вы зарегистрируетесь и установите себе счетчик, то сможете воспользоваться отчетом "трафик", где есть фильтрация данных по полям начиная от Referrer и Cookies, и кончая Region и Host. К сожалению, пока счетчик не анализирует по фильтрованной выборке, но данные можно выгрузить в виде xls-файла и анализировать в офлайне.

У системы есть пока большой недостаток, из-за которого мне пришлось снять счетчик -- нет анализа поисковых фраз (так как параметры удаляются из всех URL). Тем не менее, у нее уже присутствует функциональность, которая недоступна другим счетчикам, так что имеет смысл изучить данную систему.

С уважением,

Александр Садовский.

Первоначальное сообщение от Nicon
Занимаюсь тем же:) Может есть смысл обменяться опытом?

Наверное, все в большей или меньшей мере работали над своим анализатором. Я не замахивался на полноценный анализатор, но зато писал скрипты, делающие выборку сессий по нужным мне признакам, которую бессилен сделать WebTrends. Конечно, если бы все эти возможности были в одном пакете, это было на на порядок удобнее.

Интересно, каких именно отчетов вам не хватает в первую очередь? На чем вы пишете анализаторы?

С уважением,

Александр Садовский.

Первоначальное сообщение от telsa
Средний PR одного каталога - 6/10, непроиндексированной странички в нем - 3/10.

А что значит "средний PR каталога"? Если каталог известен Google, то он выдает точное значение PR, и страницы внутри каталога не играют роли в его расчетах.

Скажем, http://dmoz.org/Arts/ известен Google, и у него вполне точное значение PR, равное 8/10.

Первоначальное сообщение от telsa
По-моему, известен каталог или нет, и в независимости от его среднего PR, PR непроиндексированной странички = PR заглавной - n(1/10), где n- уровень вложенности каталога.

Да, согласен, я проверил -- действительно отсчет идет именно от главной страницы, а не известного каталога. Небольшое замечание по формуле: первым уровнем вложенности считается корневой каталог, поэтому неизвестная страница всегда будет иметь PR как минимум на 1/10 меньше, чем у главной страницы сайта.

С уважением,

Александр Садовский.

Первоначальное сообщение от AiK
А возможно усредняет PR проиндексированных страниц данной директории.

Все гораздо проще: Google высчитывает PR неизвестной страницы на основании последней известной ему страницы, получаемой методом усечения URL. Используются следующие правила:

  • при переходе вглубь сайта на один уровень PR понижается на 1/10;
  • PR неизвестной страницы, находящейся в известном Гуглу каталоге, равен PR каталога;
  • PR неизвестной страницы в корневом каталоге сайта равен PR главной страницы сайта минус 1/10.

Поясню:

Откройте http://dmoz.org/. PR равен 9/10.

Теперь откройте http://dmoz.org/sdsdsa, или любую другую несуществующую страницу. PR равен 8/10 (страница в корневом каталоге).

Если теперь добавить в конце URL слэш, явно указав, что это каталог, вот так: http://dmoz.org/sdsdsa/, то PR станет равен уже 7/10. Итак, по отношению к главной странице сайта снижение на 2/10.

Откройте несуществующую страницу в несуществующем каталоге, например, http://dmoz.org/sdsdsa/sdfdfd. PR равен 7/10.

Но стоит добавить слэш -- http://dmoz.org/sdsdsa/sdfdfd/ -- и PR становится 6/10.

Нетрудно догадаться, что PR страницы http://dmoz.org/1/2/3/4/5/6/7/8/9 равен 0/10.

С уважением,

Александр Садовский.

Всего: 1503