- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
вышел SearchInform Internet Server. Подробней http://www.searchinform.ru/main/full-text-search-internet-solutions-products-internet-server.html
На данный момент проведена тестировка скоростей в лаборатории. Скорость индексирования и поиска в несколько раз быстрей (3-6 раз) чем у конкурентов в том числе у yandex сервера, не говоря уже о бесплатных типа nutch
Желающих проверить -- велкам.
Условия тестирования :
На 1 компе searchinform internet server
на 4 компах установлен apach и они играют роль хостинга с которого все качается.
Все 5 компов своей гигабитной сеткой объединены.
Число сайтов для откачки и индексирования = 5000
На каждом сайте по 1000 страниц.
Сами страницы -- англоязычные тексты патентов.
Скорость откачки и индексирования
-------------------------------------
-Число страниц более 5 млн.
-Объем чистого текста более 100 гиг. Это если брать средне-взвешенный размер
страниц в Инет то реально 700-800 гиг htm страниц без всякой графики и т.д.
Скорость откачки и индексирования у нас = 35 часов.
Для сравнения yandex server с той же задачей справился за 105 часов.
Скорость поиска :
-------------------------
Было нагенерено 5К запросов из которых 1К уникальный остальные нет. Эмуляция
реальной работы в Инет/ Запросы шли не по словам а по фразам, что более
ресурсоемко.
с 4 компов специально прогой генерились запросы в 10 потоках к серверу. Запросы
естественно одни и теже и для всех тестируемых систем. То есть 40 запросов
одновременно к серверу.
Временем окончания считалось время отдачи последнего запроса последнему
клиенту.
Наш результат = 45 минут (для сравнения yandex server немного больше 4 часов).
Заранее отвечаю на вопрос про корректность тестирования. Мы готовы предоставить наш Internet Server желающим для независимого тестирования -- милости просим. Для нашей компании результаты независимого тестирования очень интересны, особенно если они потом будут опубликованы :)
Насколько я понимаю, с помощью этой системы можно создать свою поисковую систему по заданным сайтам..
К примеру, отпарсить УРЛы блогов/сайтов заданной тематики например "маркетинг", настроить индексацию этих блогов/сайтов и получать в нужном формате выдачу. Также можно следить за активностью конкурентов.
Очень перспективное направление для сфер бизнеса с большим объемом документации, например юристы, бухгалтерия и т.п.
плюс в репу :)
Интересно, надо будет попробовать... Т.е. можно сделать свою мини поисковую систему?
Internet Server устанавливается на выделенном Windows-сервере.
Интересно, надо будет попробовать... Т.е. можно сделать свою мини поисковую систему?
Да без проблем. Причем если просчитаете следующие параметры
- число страниц
- раз в каклй период переиндексация
- число запросов в час.
То специалисты компании вам посчитают и оптимальную конфигурацию и приблизительную стоимость.
SearchInform по-прежнему манкирует какое-либо публичное тестирование релевантности, например TREC ?
В TREC-2007 вы увидим ваш замечательный продукт ? ;)
SearchInform по-прежнему манкирует какое-либо публичное тестирование релевантности, например TREC ?
В TREC-2007 вы увидим ваш замечательный продукт ? ;)
Если бы Вы Maxime постестили наши продкуты для trec и опублоиковади бы результат -- мы бы были оченб признательны.
Готовы абсолютно бесплатно дать вам наш SDK для SearchInform Server
Правда в выпущенному нами недавно SearchInform Internet Server это никакого отношения не имеет........
Своими же силами мы к сожалению пока никак не можем -- нет свободных программистов. Мы же все делаем под давлением заказчиков, а не один из заказчиков плока треком не интересовался а вот скоростями очень даже.
Ну например в том что касается нашего сервера корпоративного поиска один ну очень крупный завод (1700 рабочих компьютерных мест куда мы должны ставиться) протестил несколько систем (называть завод и системы не имею права) -- так вот мы проиндексили тестовый объем за 14 часов а близжайший конкурент за 3.5 суток.
После этого вопросы все отпали...
Или например наши крупные клиенты давили насчет того что мы не поддерживаем Лотус. Ну вот кстати на прошлой неделе мы выпустили версию с поддержкой Лотуса. Причем вначале мы стали партнерами Ibm а потом уже с ведома и с промощью Ibm сделали поддержку Лотуса.
И так далее. Сейчас например идет интеграция с системой Directum, завершается интеграция с abby recognition server и т.д............
От этого и я и наши партнеры понимают что можно получить ( в смсыле денег) а вот от трека к сожалению кроме научной репутации я пока не вижу что можно получить.........
А мы все же фирма коммерческая а не научная :)
Хотя если вы мне подскажете какую финансовую выгоду я могу получить от трэка и каких дополнительных зказчиков то буду признателен.
У поисковых машин два главных критерия качества: релевантность поиска и скорость ответа на поисковые запросы. Почему вы педалируете именно скорость индексации, мне с научной точки зрения не понятно, а вот с коммерческой - еще как, у товара пиарят лучшие стороны, а вот худшие - как раз скрывают и с конкурентами не сопоставляют :)
Maxime, если почитать сайт то станет ясно что главный продукт компании - решение для поиска в ЛВС предприятия. Здесь, помимо вышеперечисленных факторов, скорость индексации и переиндексации играет очень важную роль.
У поисковых машин два главных критерия качества: релевантность поиска и скорость ответа на поисковые запросы. Почему вы педалируете именно скорость индексации, мне с научной точки зрения не понятно, а вот с коммерческой - еще как, у товара пиарят лучшие стороны, а вот худшие - как раз скрывают и с конкурентами не сопоставляют :)
Отвечаю по порядку:
1) Поисковые запросы мы тестим и по ним в несколько раз быстрей конкурентов особенно на больших объемах. Смотрите пост выше.
Более того крупные клиенты которые приобретают не на 5 копеек тестят все сами всерьез. И радует тот факт что и по скорости поиска ряд наших клиентов сказал нам что мы в несколько раз быстрей конверы, верити и т.д. Причем часто их тесты показывают даже более благоприятные результаты для нас.
2) Релевантность. Она у всех примерно одинакова и тут просто нечего выпячивать. В алгоритмах релевантности ( не путать с алгоритмами борьбы с поисковым спамом) ничего нового нет и выпячивать то что у всех примерно на таком же уровне смысла нет
Хотя если вы хотите потестить нашу релевантность -- велкам и плиз с публикацией результатов. Считаете что от компании СофтИнформ официальное разрешение на тестировку получили.
3) Для крупных клиентов еще большую роль играет то что мы много всего поддерживаем и являемся например официально партнером Ibm а не просто сами поддержали Лотус. Скоро кстати мы станем партнерами еще несколькиз китов мировой айти индустрии. Как не крути -- но вряд ли крупные корпорации будут делать партнерами и разрешать встраивать в свои продукты технологии не умеющие даже просто отдавать в результатах поиска релевантные результаты. Или вы считаете по другому и что получить разрешение на встраивание и стать партнером можно просто за красивые глаза?
4) Здесь я постил кстати говоря не для пиара -- здесь покупатели просто не водятся. Если бы постил для пиара то обязательно бы подробно рассказал про нашу уникальную технологию поиска документов похожих по содержанию, рассказал бы какие проблемы корпоративного клиента это решает. Рассказал бы пару красивых sucess stories и т.д.
Maxime -- если я верно угадал вы не занимаетесь коммерцией, иначе бы паром вы это не считали.......
Теперь для чего я сюда запостил. Чтобы коллеги которые изъявят желание потестить и покритиковать (не абстрактно а после тестировки) начали это делать :)
Обоснованная критика с цифрами и фактами нам крайне интересна -- тем более для продукта (SearchInform Internet Server) который только что вышел.
Не очень понял насчет тестирования скорости: 5000 тысяч запросов выполнялись в общей сложности 45 минут, или 45 минут выполнялось 5000 * 40 тысяч запросов?