- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Например, утянуть по инету...
Да я то могу скачать и заархивирвоать на своем выджеленном серваке -- только он в Чикаго.
А вот потом по инет стянуть например 300 гиг тяжко в нащих условиях когда оплата идет по $23 за гиг..........
Если кто в Москве ( я часто очень в Москве бываю) готов скачать по данным мной ссылкам архивы и потом переписать мне на винт -- то с радостью опубликую на форуме рез-ты тестов например терабайта на не 132 гиг.......
Пишите если кто готов помочь
Ок, интересные Вы вещи говорите, надо будет как-нибудь глянуть.
Да именно dtsearch быстрей всех после него идет isys
А yandex у нас свалился даже на индексации 11 гиг - куда ему 100 гиг
С google тоже -- 11 гиг более 5 часов в то время как dtsearch 3 с половиной часа.
Вот для интересующихся информация о тестах по скорости поиска.
Характеристики индексируемлой инфлормации
Размер документов 132,26 gb
Всего документов 2,888,202
Уникальных слов 18,912,257
Размер чистого текста 77,57 gb
Размер индекса 16,29 gb
Время индексации 6:28
В среднем гб в час 20,45
Характеристики поиска:
1000 запросов на фразовый поиск с максимальным число промежуточных слов (yt входящих в запрос). Все в пакетном режиме
1) с выводом 100 рез-тов. Заняло 741 секунду. Детальный отчет лежит здесь www.searchinform.com/tmp/report100.txt
2) Теже запросы но с выводом 5000 результатов. Естественно это медленней чем при выводе 100. Заняло 1020 секунд
Детальный отчет лежит здесь www.searchinform.com/tmp/report5000.txt
Так что реально на такой вот базе обычный фразовый поиск в среднем 1 секунду на запрос.
А комп в общем то не сильный на котором тестилось -- amd 2.3 винт на 7200 и память ddr400 2 гига
P.S Для желающих потестить завтра к вечеру будет уже на сайте дистрибут в том числе и триальной версии и описание какой входной файл принимается для пакетного режима. Буду очень рад если кто то сравнить скорости с другими системами.
В каком виде выводились найденые результаты ? В частности, строились ли цитаты найденых документов по словам из запроса ?
Можно ли что-то почитать о формате индекса, создаваемого системой?
Можно ли что-то почитать о формате индекса, создаваемого системой?
Вот мне тоже было бы интересно, потому как 20% это минимальный из всех возможных результатов, наблюденных в природе.
sni, прошу великодушно извинить, но представляется, что сообщение "не понравился в целом" не совсем продуктивно. Постарайтесь в следующий раз обосновать свое мнение и/или привести примеры.
а вот в том то и дело что не помню почему..... просто когда-то оооочень нужно было программу такого типа и перепробовал все что только можно..... сказал только что не очень хорошее впечатление
Хотя есть и плюсы. насколько известно , люди пишут что оч.хорошая скорость индексации. это хорошо :)
В каком виде выводились найденые результаты ? В частности, строились ли цитаты найденых документов по словам из запроса ?
В виде название документа, размер, число наденный нужных вхождений.
Цитаты в принципе можно выводить и из рез-тов поиска известны их позиции но для этого естественно надо грузить документ, а это уже не задача поискаю
Можно ли что-то почитать о формате индекса, создаваемого системой?
Нет технология запатентованная и коммерческая.
А о размерах индекса и его проуентах от чистого теста можете судить сами по опубликованной выше инфе по индексированию 132 гиг где чистого текста около 80 гиг
Кстати еще для интересующихся скоростью работы поиска.
На этой неделе мои ребята должны выложить тулзу для тестировки.
Этой тулзе дается каталог из файлов типа html или txt и задаются параметры для генерации файла с фразоавыми запросами (число слов от и до, число мусорных сдов между ними и т.д.)
В итоге получается текстовый файл
Далее запускается SearchInform с ключем /debug и в меню debug грузится это файл и он по выделенному индексу начинает гнать в batch mode и потом отчет типа того что я приводил
Так что любой жедающий может сделать свою базу например на 50 гиг проиндексить нашей триалкой и запустить тест на скорость поиска.
Если надо могу дать и ключик чтобы можно быдло дольше месяца играться. Единственно условия -- сообщить мне о результатах теста.