- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Вышел SearchInform 2.0
http://www.searchinform.com/site/ru/main/search-inform-products-search-inform-desktop.htm
Капитально увеличена скорость работы.
Результаты тестов здесь www.searchinform.com/tmp/1.doc
Так например 132 гига индескируется за 6 с пловиной часов что не просто быстрей а во много раз быстрей остальных систем.
Версия вообщзе капитально переработана. Все можно проверить откачав триалку.
Попутно вопрос -- кто нибудь может предостваить 400-500 гиг текстовой инфы?
136 гигабайт чистого текста? или док файлов? И какова потом скорость поиска? Минуту на запрос?
136 гигабайт чистого текста? или док файлов? И какова потом скорость поиска? Минуту на запрос?
Размер документов 132,26 gb
Всего документов 2,888,202
Уникальных слов 18,912,257
Размер чистого текста 77,57 gb
Размер индекса 16,29 gb
Время индексации 6:28
В среднем гб в час 20,45
А вообще все это есть вот здесь (файл всего 64 r,)
www.searchinform.com/tmp/1.doc
По нашим расчетам без снижения скорости индескирования мы до 300 гиг чистого текста без вопросов, далее наверно будет снижение на 25-30%
Если кто то сможет предоставить гиг 500-800 текстовой инфы, то мы бы с радостью провели тест на индексирование террабайта и с оглашением результатов в этот форум.
нет, ну индексирует бесспорно исключительно быстро. но тут возникают два естественных вопроса:
1) как быстро потом ищет? в принципе 2.8 миллионов доков размером в 20к примерно эквивалентны 16-18 млн вебовских страничек.
2) подозрительно маленький какой у вас индекс, это, наверное, без стоп-слов? или без координатной информации?
да, собственно забыл сказать. чтобы проверить скорость индексации можно использовать синтезированные текстовые документы. собираете статистику по частоте длинн документов и частоте появления последовательных пар слов и вперед :-) хоть десять террабайт можно сгенерить. сответствующая программка пишется быстро :-)
1) как быстро потом ищет? в принципе 2.8 миллионов доков размером в 20к примерно эквивалентны 16-18 млн вебовских страничек.
Реально ищет в 3-4 раза быстрей чем к примеру dtsearch. Только в отличии от времени индексирования тут так корректно время нельзя измерять -- надо через утилиту которая будет заполнять поля в проге и кликать на поиск.
2) подозрительно маленький какой у вас индекс, это, наверное, без стоп-слов? или без координатной информации?
Это одно из преимуществ что маленький индекс. Из за этого в том числе и поиск быстрей. А фразовый поиск с расстоянием безуслвоно поддерживается.
да, собственно забыл сказать. чтобы проверить скорость индексации можно использовать синтезированные текстовые документы. собираете статистику по частоте длинн документов и частоте появления последовательных пар слов и вперед :-) хоть десять террабайт можно сгенерить. сответствующая программка пишется быстро :-)
Такой тест никому не нужен -- интересно тестить на реальгых данных.
а что dtsearch как-то осбенно эффективен? сравните лучше с google desktop или персональным поиском Яндекса.
Реально ищет в 3-4 раза быстрей чем к примеру dtsearch. Только в отличии от времени индексирования тут так корректно время нельзя измерять -- надо через утилиту которая будет заполнять поля в проге и кликать на поиск.
а что автоматика не поддерживается? а скорость поиска вещь важная, зачем вам быстро индексировать такое количество информации, если время выполнения запроса будет 1 минута+? не лучше ли в такм случае продать какое-нибудь масштабируемое решение.
Это одно из преимуществ что маленький индекс. Из за этого в том числе и поиск быстрей. А фразовый поиск с расстоянием безуслвоно поддерживается.
И все у вас умещается в 20% ? а запрос "to be or not to be" у вас можно найти? не будет ли этот запрос эквивалентен запросу "be be" ?
Такой тест никому не нужен -- интересно тестить на реальгых данных.
Вот тут Вы принципиально не правы. Попробуйте сначала создать синтетическую коллекцию такого же объема, как и реальные данные. Протестируйте скорость создания индекса и время поиска. Вы приятно удивитесь насколько результаты будут похожи. Возможно даже практически идентичны. Даже если Вы возьмете Зобелевский finnegan.
как-то ставил SearchInform - не понравился что-то в целом.:(
Юзаю теперь Dvygun.... он вроде нормально ищет все....
sni, прошу великодушно извинить, но представляется, что сообщение "не понравился в целом" не совсем продуктивно. Постарайтесь в следующий раз обосновать свое мнение и/или привести примеры.
Попутно вопрос -- кто нибудь может предостваить 400-500 гиг текстовой инфы?
Регистрируйтесь на TREC2006, там есть Terrabyte track, - получите раза в два больше инфы, заодно с зубрами IR поряетесь, если не страшно :)
а что dtsearch как-то осбенно эффективен? сравните лучше с google desktop или персональным поиском Яндекса.
Да именно dtsearch быстрей всех после него идет isys
А yandex у нас свалился даже на индексации 11 гиг - куда ему 100 гиг
С google тоже -- 11 гиг более 5 часов в то время как dtsearch 3 с половиной часа.
Можете проверить сами. Сейчас реально нас постоянно сранвиают (и это неспроста) с 2 -я системами -- dtsearch и isys
Из серьезных есть еще решения verity -- они тоже намного хуже наших, но я не могу привести результатов тестов с точки зрения законности -- так как у verity нет официально trial версии в отличии от остальных :(
А так как мы во многом работаем на запад, то нам приходится следить за легальностью своих высказываний
а что автоматика не поддерживается?
У нас есть API и себя мы можем в автоматике а вот у остальных нет триальной версии API. Могу скахзать что мы ищем в 3-4 раза быстрей, но точных цифр приводить не буду именно из за юридических тонкостей.
а скорость поиска вещь важная, зачем вам быстро индексировать такое количество информации, если время выполнения запроса будет 1 минута+?
Это вы наверно по другим системам судите? Нашу вообще хоть пробовали? Я бы вот например не рискнул говорить более минуты не попробовав. Если речь не вести о нашей изюминке -- поиске похожих а только а фразовом с расстоянием который есть у всех то время измеряется все же в секундах ну может на особо талантливых запросах до 10-15 секунд. Здесь я речь веду о проиндексированных 132 гигах
не лучше ли в такм случае продать какое-нибудь масштабируемое решение.
А кто сказал что у нас нет масштабируемого решения?
И все у вас умещается в 20% ? а запрос "to be or not to be" у вас можно найти? не будет ли этот запрос эквивалентен запросу "be be" ?
Стоп словами управляет клиент. Может вообще при индексации убрать все стоп слова и все будет замечательно
Вот тут Вы принципиально не правы. Попробуйте сначала создать синтетическую коллекцию такого же объема, как и реальные данные. Протестируйте скорость создания индекса и время поиска. Вы приятно удивитесь насколько результаты будут похожи. Возможно даже практически идентичны. Даже если Вы возьмете Зобелевский finnegan.
как-то ставил SearchInform - не понравился что-то в целом.:(
Напоминает фразу из известного фильма
" Мне нужен точно такой же халатик только другого цвета "
Регистрируйтесь на TREC2006, там есть Terrabyte track, - получите раза в два больше инфы, заодно с зубрами IR поряетесь, если не страшно :)
Оно бы хорошо -- только вот с таможней проблемы -- они вражеские данные не пропускают.
ЕСли можете посоветовать как нормально это сделать пишите мне в личку -- буду признателен
leo собака softinform точка com
ЕСли можете посоветовать как нормально это сделать пишите мне в личку
Например, утянуть по инету...