funsad

Рейтинг
116
Регистрация
15.11.2000
Как писал spark
это мне теперь искать кто такой умный ссылку так прописал, или есть другие методы?

Чтобы искать, не нужно быть сыщиком -- у меня это заняло ровно две минуты, хотя я не знал вашего URL. :)

Вот эта страница вам "напакостила":

http://www.professional.spb.ru/casinos.htm

Она приводит ссылку "http://www.dixie.com.ua/ru/index.jsp/", но Яндекс считает www.dixie.com.ua и www.dixie.kiev.ua зеркалами.

С уважением,

Александр Садовский.

Как писал og
Встречалися ли кто с этим зверем?

Он уже обсуждался на этом форуме.

С уважением,

Александр Садовский.

Как писал KKnop
Александр, Вам удалось заставить Черепаху отыскать что-то реальное с помощью {SRVHREF} или {SRVLINK}? Если да, приведите, пожалуйста, пример конкретного поискового запроса.

Реальное -- нет, но избавиться от "ничего не найдено" можно. В помощи Turltle некорректно описан синтаксис запросов, я об этом сказал на их форуме. Добавьте перед URL "http://", и все будет путем. Хотя что означает эта выдача -- известно только Turtle, скорее всего просто документы, в которых есть фраза "http:/".

С уважением,

Александр Садовский.

Когда MSN включил это, не знаю, а Inktomi реализовал такую возможность уже давно, добавив поддержку следующих языков:

Arabic, Czech, Danish, German, Greek, English, Spanish, Estonian, Finnish, French, Hungarian, Icelandic, Italian, Hebrew, Japanese, Korean, Lithuanian, Latvian, Dutch, Norwegian, Polish, Portuguese, Romanian, Russian, Swedish, Thai, Turkish, Simplified Chinese, and Traditional Chinese.

С уважением,

Александр Садовский.

Черепаха, похоже, разрабатывалась без учета достижений современной науки. PageRank тут уже обсудили, оказывается, то же самое касается и стратегии обновления документов. В литературном пресс-релизе написано:

Недюжинный интеллект позволяет черепахе творчески подходить к путешествиям по мировой паутине. Скрупулезно изучая каждую ячейку паутины, Turtle выясняет, с какой частотой и по каким принципам изменяется ее содержимое, чтобы точно знать, когда вернуться за новостями.

В то же время, исследования показывают, что оптимальная частота переиндексации страницы вовсе не пропорциональна частоте ее обновления, как кажется интуитивно. Оптимум будет гораздо ближе, если переиндексировать страницы равномерно, независимо от скорости их обновления.

С уважением,

Александр Садовский.

Как писал Ashmanov
А ещё Черепаха предоставляет чат - страница "Запросы сейчас".
Очень удобно.

Не очень -- они перемешивают запросы, а не сортируют их по времени, к тому же запросы, давшие ноль результатов, не публикуются, то есть длинные фразы в этом чате не будут услышаны. :)

С уважением,

Александр Садовский.

Как писал Nikolai Popkov
P.S. Какие сами, такой и интернет. Если не верите, попробуйте сами.

Уже пробовали -- я писал о поисках счастья и многих других вещах. :)

С уважением,

Александр Садовский.

Как писал wolf
Либо база еще совсем маленькая, либо PageRank'ом и не пахнет.

1. База, судя по их заверениям, раза в полтора больше, чем база Яндекса по объему. Похоже, что Тартл использует для расчета "грязный" html (с тегами), а Яндекс "чистый" -- у Тартла средний размер документа 25Кб, у Яндекса -- 17Кб. По числу документов Тартл превосходит Яндекс только на 20%.

2. В Тартл не работает по-умолчанию группировка по сайтам. Странное решение, если большинство ведущих поисковиков (Google, Яндекс, Рамблер и т.д.) давно пришли к выводу, что это более удачный вариант.

3. Ни PageRank, ни ссылочное ранжирование не используются, или им придали крайне малый вес.

4. При запросе из 3 и более слов практически всегда слишком большой вес придается одному из слов, в итоге результаты поиска совершенно нерелевантны. Например, в одном из документов содержатся все слова "коэффициент затухания результат работы PageRank", но результат поиска впечатляет -- ничего похожего.

5. Индексируются xls-файлы и, наверное, другие распространенные форматы.

6. Есть интересная возможность ретроспективы документа -- увидеть несколько его версий.

7. Интересная возможность поиска по фрагменту.

С уважением,

Александр Садовский.

Евгений, вот замечания по статье:

1. (Предсказуемое) Закономерности, выявленные по одному прилагательному, не обязательно распространяются на все слова данного типа. Легко привести контрпримеры:

  • Если слово почти не связано с устойчивыми словосочетаниями, доля частотных запросов будет стремиться к нулю ("надежный" -- среди 1011 запросов самый популярный имеет частоту 15).
  • Если слово сильно связано с устойчивым словосочетанием, то число двухсловных запросов будет намного меньше, так как большинство запросов будут уточнять то самое устойчивое словосочетание ("слабый" -- половина запросов о "слабом звене", и двухсловных запросов, кроме основного, почти нет).
  • Еще вариант -- слово не определяет характер существительного, а только задает его сферу ("сексуальный", "юридический" -- легко заметить, что спад частот двухсловных запросов намного медленней, чем для слова "поисковая", значит, и суммарные частоты у них должны быть больше).
  • И т.д.

На мой взгляд, более грамотно было бы получить примерные данные по нескольким десяткам запросов, провести их классификацию, и затем уже привести по одному примеру каждого вида.

2. Некоторые графики требуют более подробных объяснений, а лучше простого примера, как они получались -- без этого статья читается трудно.

  • Первый график -- грамотный и красивый.
  • Второй -- думаю, он нужен в другой форме. Сейчас он показывает число сочетаний слов и получаемую от них долю трафика для данной длины сочетаний. Логичней показать долю от общего трафика (со словом "поисковый"), так как трехсловные сочетания не могут встречаться в популярных двухсловных запросах, значит, однозначно проигрывают по абсолютным частотам двухсловным сочетаниям, которые включают в себя и трехсловные запросы.
  • Третий -- мне кажется, он не нужен; даже если приводить его, данные наглядней показать круговой диаграммой или таблицей, а не графиком.
  • Четвертый -- на мой взгляд, наглядней было объединить частоты по диапазонам (например, 1-5, 6-15, 16-100 и т.д) и нарисовать столбиковую диаграмму.
  • Пятый -- нормальный график, не хватает только указания числа запросов в каждой группе и их средней частоты.

3. Вывод о том, что многие трехсловные запросы появляются как результат уточнения двухсловных, неправомерен -- это, скорее, непроверенная гипотеза. Если посмотреть самые популярные трехсловные запросы, то видно, что многие из них формировались изначально, а не построены путем уточнения: "украинские поисковые системы", "регистрация в поисковых системах", "поисковые системы интернета" и т.д. Даже если взять малочастотные трехсловные запросы, ситуация не меняется: "локальная поисковая система", "все о поисковых системах", "адреса поисковых сайтов", "построение поисковых систем", "рейтинговые поисковые системы", "поисковые системы ижевска" и т.д. Очевидно, что все эти запросы сформированы сразу. Следовательно, я склонен считать, что гипотеза не оправдается, хотя для доскональной проверки у нас недостаточно данных. Может, Илья подскажет, как все обстоит на самом деле?

4. Вывод о методах раскрутки, применимой к "цветкам", "вершкам" и "корешкам", делался на основании частот запросов, что некорректно. Это совсем не то же самое, что конкуренция по запросу, которая определяет метод раскрутки, хотя обычно эти два показателя коррелируют.

Но в целом очень интересно, спасибо за исследование.

С уважением,

Александр Садовский.

Первоначальное сообщение от randy
Может ли в последствии гугль расценить такой листинг (одиниковых по названию файлов страниц одного сайта) как СПАМ?

Нет, не расценит. Если страницы разные по содержанию, то нет никаких причин запрещать их из-за особенностей наименования. В рунете сотни тысяч Ивановых, но это еще не повод для провайдеров давать доступ только одному Иванову.

С уважением,

Александр Садовский.

Всего: 1503