Комментарии - funsad - Профиль вебмастера - Форум об интернет-маркетинге

3 июля 2002, 22:52

Как писал AlexA
Для этого на странице результатов поиска выводится список из 12 слов, названий и понятий, наиболее близких по смыслу к запросу.

Похоже, они используют не только информацию о совместной встречаемости терминов, но и анализируют запросы пользователей. По крайней мере, на низкочастотные запросы (для которых находится 200-300 страниц) AltaVista выдает полную ерунду, никак не связанную с темой. Например, на слово из трех букв предлагаются "Company Details", "October 24" и т.д. -- такие сочетания встречаются обычно на 1-5 страницах, что для статистических выводов крайне мало. Более того, та же фраза "October 24" никак не выделена в имеющихся страницах, и если не использовать базу запросов, неясно, почему AV выбрала ее.

Но такая чехарда есть и по более популярным запросам, например, на russian search engine отображаются довольно дикий список, включающий три группы терминов:

русские брачные агентства (Agency, Russian Lady, Russian Women),
список языков и стран (Countries, Eastern Europe, English, German, Portuguese, Spanish, Worldwide)
и только два термина, касающиеся поисковиков (Full Text, Search Engine Submission)

Анализ текстов страниц говорит о том, что AV может сделать еще три вещи, которые могли бы улучшить результаты поиска:

1) она пытается найти связанные слова, даже когда данных недостаточно для выявления устойчивых закономерностей -- их надо игнорировать;

2) она не умеет выделять списки, слова из которых, как правило, являются паразитными спутниками (пример выше -- списки языков);

3) она не отсеивает жестким образом дубли страниц перед тем, как искать закономерности.

С уважением,

Александр Садовский.

медленный осмысленный поиск

3 июля 2002, 21:51

Как писал Dmitry Ermolaev
Как думаете, нужен ли будет кому поиск по смыслам, но довольно медленный.

Современные поисковые системы в Web универсальны, и потому обрабатывают гигантские объемы информации. Поэтому медленный поиск ничего не даст. В то же время, если сориентироваться на какую-то очень узкую область, осмысленный поиск может оказаться востребованным.

Он также будет полезен как робот, отвечающий на FAQ вопросы -- составить "смысловую карту" одного сайта или форума нетрудно, а помощь новичкам такой робот окажет большую.

Еще вариант -- для просеивания первично отфильтрованной информации. Вначале задается запрос десятку-другому поисковиков, выбирается с каждого сотня лучших ссылок, а затем смысловой поиск отбирает из этой массы самое лучшее, выкачивая и анализируя страницы.

С уважением,

Александр Садовский.

Впечатление от поиска на ЧЕРЕПАХЕ

3 июля 2002, 20:47

Как писал euhenio
Для новостной информации качество (ценность) и состоит в ее новизне.

Некорректно приравнивать новостные страницы ко страницам, содержащим новостную информацию. Даже самые большие страницы газет редко содержат новости целиком -- только анонсы со ссылкой, ведущей на статью. Поэтому нельзя говорить о том, что нужно их переиндексировать ради сохранения новизны новостной информации -- вся информация находится в глубине сайта, на отдельных страницах. Эти отдельные страницы-статьи почти не нуждаются в переиндексации, так как они годами не меняются.

Что получается? Большинство изменчивых страниц можно переиндексировать не чаще, чем обычные страницы, если будет способ извлекать из них новые ссылки. А способ этот есть, называется Яндекс.Бар и тулбар Google.

Давайте соберемся в одну большую (маленькую?) кучу и обсудим, что такое - качество информации... Кто за?

Как всегда, все кончится попойкой? ;)

Встреча в офлайне сопряжена с определенными трудностями в виде перемещения из одного государства в другое. А начать новую ветку форума может любой, если тема будет интересна, участники форума поддержат ее.

алгоритм PageRank именно этому и способствует, выдавливая наверх страницы, которые _и_так_ имеют бОльшую вероятность попадания на них посетителя.

Вес PageRank отличается от обычной посещаемости тем, что "доля качества" в нем заметно выше. Посетителей можно нагнать рекламой, а создать мгновенно сайт с хорошим PR невозможно. Что касается проблемы выбора между сайтом-старожилом и сайтом-новичком (при равном качестве информации), то она есть, и часто решается не в пользу новичков. Но качество при этом, как правило, не страдает.

С уважением,

Александр Садовский.

Впечатление от поиска на ЧЕРЕПАХЕ

3 июля 2002, 18:16

Как писал itman
в реальном инете частота изменения страницы и ее популярность неплохо так коррелируют.

Тогда возникает вопрос: почему поисковик должен выдавать популярные страницы в ответ на запрос? С этим справляется и рейтинг Рамблера. Переиндексация нужна, прежде всего, чтобы выдаваемая поисковиком информация была актуальна, и найденная страница (сайт) соответствовали тому, что знает о них поисковик. С этой точки зрения соотношение затраты/качество гораздо лучше для меры, выбранной в статье.

Быстро меняющиеся страницы, как правило, сами не содержат ценную информацию, а только анонсы и ссылки (представьте, как выглядит новостная лента или раздел форума), поэтому их постоянная переиндексация ставит целью получить, прежде всего, новые URL. А эта задача касается уже не свежести, а объема базы.

Поэтому мне трудно согласиться, что в статье выбрана некорректная мера оценки свежести страниц. А если верна мера, то верны и выводы.

С уважением,

Александр Садовский.

Раскрутка в Яндексе - игра по правилам или нет?

2 июля 2002, 18:55

Как писал Alex2320
Считается ли такой метод раскрутки поисковым спамом или это абсолютно нормально?

Даже если бы сайты сами получили ссылки на других ресурсах, это считалось бы поисковым спамом, так это попытка повлиять на результаты поиска.

Здесь вопрос надо ставить по-другому: обман ли это заказчика, если после того, как он перестанет платить, его сайт тут же упадет в результатах поиска? Если ему об этом честно говорят до получения оплаты, значит никакого обмана нет.

С уважением,

Александр Садовский.

Реклама на Яндексе становится привлекательней

2 июля 2002, 10:03

Как писал Professor
ничего особенного - это стандартные особенности нормального (!) баннерного движка ... просто они не хотели использовать ничью технологию ...

Это так. Но, с другой стороны, судя по тому, как медленно добавляют крупные сайты возможности вроде учета уникальных посетителей или геотаргетинга, можно предположить, что при реализации этих свойств в больших системах возникают определенные сложности.

С уважением,

Александр Садовский.

что за чертовщина, и как с этим бороться

2 июля 2002, 09:37

Как писал Unforgiven
Может несколько в оффтоп, но очень интересно, где у яндекса и гугла проходит грань между зеркалами и похожими сайтами?

В Яндексе зеркала -- это полностью идентичные сайты, все остальное рассматривается как две разных группы документов, часть из которых будет признана дублирующими друг друга.

С уважением,

Александр Садовский.

Впечатление от поиска на ЧЕРЕПАХЕ

2 июля 2002, 09:35

Как писал Exteris
Что-то не нравится черепахе слово "бизнес": http://www.turtle.ru/db/s.html?words=%E1%E8%E7%ED%E5%F1

Как ответил на форуме Дмитрий Крюков,

Грохнулся один из серверов, ответственный за индекс от русской "А" до "К". Специалисты выехали.

Вот вам и достоинства/недостатки недорогой поисковой машины, уже обсуждавшиеся на этом форуме.

С уважением,

Александр Садовский.

Google занялся распределенными вычислениями

1 июля 2002, 21:23

Как писал LiM
С удовольствием бы ответил "Google полез не в свое дело..."

С одной стороны, можно сказать, что они распыляются. С другой стороны, у них работает очень дорогое оборудование, и потому хороши все средства, чтобы окупать его. Это вопросы того же плана, как коммерческий полет Дэниса Тито на станцию "Мир", предназначавшейся для научных экспериментов. Если бы станция обходилась в копейки, там могла бы жить чистая наука; но миллиардные затраты надо как-то окупать.

С уважением,

Александр Садовский.

Google занялся распределенными вычислениями

1 июля 2002, 15:34

Несмотря на то, что тулбар говорит, что вычисления идут, никакой активности в интернете и загрузки процессора не наблюдается: все, что было -- один запрос программы "dcclient.exe" наружу. Возможно, это связано с тем, что у меня стоит NT -- "At the moment, we do not recommend enabling it on either Win 95 or Win NT, although we will be supporting it on Win NT in the near future".

Еще интересно взглянуть на статистику "команды Google" -- объем вычислений, проделываемый всеми, у кого включена данная возможность в тулбаре (на сегодня 2475 человек).

WU (work unit) -- минимальный объем вычислений, эквивалентный примерно 2-3 дням работы во время простоев на машине среднего класса. Score -- соотношение объема работ, проделанного командой Google по сравнению с тем, сколько вычислений сделал бы одиночный Pentium III частотой 400 МГц. Как видно, производительность компьютеров, подключенных по этой программе, в среднем в 2,4 раза больше чем у PIII-400.

С уважением,

Александр Садовский.

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

funsad