- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Кстати еще для интересующихся скоростью работы поиска.
На этой неделе мои ребята должны выложить тулзу для тестировки.
Этой тулзе дается каталог из файлов типа html или txt и задаются параметры для генерации файла с фразоавыми запросами (число слов от и до, число мусорных сдов между ними и т.д.)
В итоге получается текстовый файл
Далее запускается SearchInform с ключем /debug и в меню debug грузится это файл и он по выделенному индексу начинает гнать в batch mode и потом отчет типа того что я приводил
Так что любой жедающий может сделать свою базу например на 50 гиг проиндексить нашей триалкой и запустить тест на скорость поиска.
Если надо могу дать и ключик чтобы можно быдло дольше месяца играться. Единственно условия -- сообщить мне о результатах теста.
Не надо людям лапшу вешать - некрасиво.
Для начала предоставьте реальные характеристики сервака, способного записать с такой скоростью.
Не надо людям лапшу вешать - некрасиво.
Для начала предоставьте реальные характеристики сервака, способного записать с такой скоростью.
Кто лапшу вешает? Вы сами проверяли? Если нет то жду официальных извинений -- иначе считаю вас просто болтуном.
Какие харкактеристики -- чего? Читать умеете (появились у меня сомнения в этом) -- в постах выше были описаны характеристики компа на котором тестилось.
Пол какую скорость запись то речь?
20% это минимальный из всех возможных результатов, наблюденных в природе.
Да, это очень хороший результат, если он полностью обеспечивает фразовый поиск. У нас где-то 35-40% такой полный индекс.
Вопрос к Leom: какая была методика проверки результата запросов, если сниппеты даже не выводились, как я понял? (поправьте, пожалуйста, если напутал)
В виде название документа, размер, число наденный нужных вхождений.
Цитаты в принципе можно выводить и из рез-тов поиска известны их позиции но для этого естественно надо грузить документ, а это уже не задача поискаю
Понятно, спасибо.
А "Phrase search" и "All words must present in result" в резульатах тестирования что означают ? Если поиск ведётся как точное вхождение фраз из запроса, то второе как бы само собой подразумевается.
И ещё один момент: при поиске английская морфология учитывалась ?
Так Вы все-таки ответьте если не сложно на мой вопрос про стоп-слова, а то Вы уклоняетесь от ответа: в вашем тестовом примере с 20% индекса Вы их включали в индекс или нет? В принципе, отстутствие стоп-слов в индексе запросу фразовому не мешает.
А скорость поиска можно продемонстрировать на низкочастотных словах и сказать, что частотные слова "редко спрашивают". А в реальности, и я это наблюдал вживую, частотные слова в запросах как раз очень даже часто бывают. То есть наблюдается некоторая корреляция между частотой появления слова в документах и запросах.
Нет технология запатентованная и коммерческая.
А о размерах индекса и его проуентах от чистого теста можете судить сами по опубликованной выше инфе по индексированию 132 гиг где чистого текста около 80 гиг
Вопрос к Leom: какая была методика проверки результата запросов, если сниппеты даже не выводились, как я понял? (поправьте, пожалуйста, если напутал)
Методика такая -- в отчет -- типа вот этого www.searchinform.com/tmp/report100.txt или www.searchinform.com/tmp/report5000.txt
Пишется сам запрос и число документов. При желании сюда же можно писать первые (100 или 5000 то что в соответствующих файлах) названий документов -- они уже есть в результате поиска. Но это уже работа прикладной программы -- поэтому чтобы вчистую оценить время поиска в этом смысла не вижу. Ведь в сетевой версии это уже клиент будет выводить результаты. А нас же интересует скорость работы сервера -- верно?
Далее почему при выводе 5000 результатов время чуть хуже -- так как естественно тратится время на вытаскивание по ID названия документа и безусловно по 100 это быстрей чем по 5000.
Наверно сегодня к вечеру я выложу комплексный тест по базам в 10,7 гига в 83 гига и в 132 гига, чтобы можно было скоррелировать ухудшение времени в зависимости от объема базы и индекса. Хотя конечно это все условно -- запросы то к каждой базе генерятся случайно
вот, кстати, вдогонку результатам поиска: из потенциальных стоп-слов только thereof, но он в действительности довольно редкое слово, никаких a, the, of, in, on.
Понятно, спасибо.
А "Phrase search" и "All words must present in result" в резульатах тестирования что означают ? Если поиск ведётся как точное вхождение фраз из запроса, то второе как бы само собой подразумевается.
И ещё один момент: при поиске английская морфология учитывалась ?
Phrase search это знасит искать по фразе а не по словам
all words... -- значит требование чтобы се слова были представлены во фразе.
Да -- только для русского у нас морфология на базе Зализняка а для ангдлийского стемминг
www.searchinform.com/tmp/search.gif -- опции которые в тесте.
Используются все настройки кроме number of in between words
Этот параметр подставляется режимом debug и он потом фигурирует вот в этои отчете www.searcginform.com/tmp/report100.txt
То есть включена морфология, фразовый поиск где не важен порядок слов (это кстати медленней чем если важе порядок слов) и выбран нужный индекс
Так Вы все-таки ответьте если не сложно на мой вопрос про стоп-слова, а то Вы уклоняетесь от ответа: в вашем тестовом примере с 20% индекса Вы их включали в индекс или нет? В принципе, отстутствие стоп-слов в индексе запросу фразовому не мешает.
.
Так я же вроде уже отвечал. Что стоп-слрвами управляет сам пользователь Естественно стоп слова в индекс не включаются.
А список стандартных стоп-слов которые мы используем ( в том числе и в тесте) легко посмотреть установив SearchInform и зайдя в stop-words manager. И если хотите можете их вообще все удалить -- толь ко зачем?
СТоп слова все равно только мешают.
Я ответил на ваш вопрос?
А скорость поиска можно продемонстрировать на низкочастотных словах и сказать, что частотные слова "редко спрашивают".
.
Это было бы некорректно -- я поэтому и привел ссылки на отчет. Если вы посмотрите то там очень много результатов где более одного документа в результате запроса -- а это уже значит что слова не низкочастотные -- генернилось то автоматически.
Хотя наверно здравая мысль в ваших словах есть -- можно пытаться провести тест где в резудльтатах запроса не будет менее чем например 100 документов. Но результат не будет намного хуже могу точно сказать. Для этого просто надо еще одну утилиту писать, которая после генерации первой утилитой прогонит все через поиск и выкинет там где менее 100 рез-тов.
А в реальности, и я это наблюдал вживую, частотные слова в запросах как раз очень даже часто бывают. То есть наблюдается некоторая корреляция между частотой появления слова в документах и запросах.