- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
ну у меня может всеже и не совсем простое... За других я не ответчик :). По скорости - это ну очень быстро порядка O(1). OZE вы получили ответы на вопросы?
нет, ответов от ТС я не получил
а сколько у вас занимает индексация 1Гб чистого текста?
размер базы при этом?
скорость поиска?
нужны конкретные цифры, а не имхо.
я конечно овечаю только за себя (программа StopKa) - у меня НИКАК - (к Leom - бывает же такое - одни и те же идеи примерно в одно и то же время - видно вселенная один живой механизм :)) - OZE на ваше фи - могу только сказать - у каждого алгоритма есть определенные преимущества и определенные недостатки. Прикинте документ где все слова заменены синонимами - подозреваю что мы вместе будем смеяться.
протестируйте пожалуйста - линки вы найдете - у меня нет фирмы и своих программистов - поэтому пока продукт достаточно сырой - идей правда дофигища. гигабайт будет индексировать порядка 5-10 минут
я конечно овечаю только за себя (программа StopKa) - у меня НИКАК - (к Leom - бывает же такое - одни и те же идеи примерно в одно и то же время - видно вселенная один живой механизм :)) - OZE на ваше фи - могу только сказать - у каждого алгоритма есть определенные преимущества и определенные недостатки. Прикинте документ где все слова заменены синонимами - подозреваю что мы вместе будем смеяться.
такие документы есть, не смешно:)
протестируйте пожалуйста - линки вы найдете - у меня нет фирмы и своих программистов - поэтому пока продукт достаточно сырой - идей правда дофигища. гигабайт будет индексировать порядка 5-10 минут
если вы в Москве, то можно было бы встретиться
такой вопрос: а чем ваш продукт лучше Google.Desktop или Яндекс.Десктоп (или как там его)?
размеры кстати будут поменьше чем у Leom-а - ну это конечно что туда сохранять - пока я добился самого маленького индекса среди google desktop, yndex desktop, searchinfo, lucent, microsoft search - что тестировал точно и вспомнил на вскидку - индекст - конечно будет зависеть от содержимого 1 Gb текста - примнерно мегабайт 100-150-200...
Я в Минске. Насчет синонимов - если говорите что есть примеры - и не смешно - верю. Я думаю вообще это решаемо - с пом. базы синонимов языка и предварительной обработки. У меня в программе сейчас такого нет.
>>>
такой вопрос: а чем ваш продукт лучше Google.Desktop или Яндекс.Десктоп (или как там его)?
>>>
тут могу сказать - StopKa - достаточно быстро строит индекс - быстрее - чем yndex desktop, lucent, microsoft search - чуть медленнее searchinfo - с google desktop - не сравнивал - т.к. индексирует в idle режиме - еще есть возможность ускорить - пока я никуда не тороплюсь...
индекс по размерам как я уже говорил самый маленький - правда тут нужно искать золотую середину - ведь чем больше индекс - тем лучший результат поиска можно получать.
в остальном - по использованию оперативной памяти при индексировании - около 700 mb - yndex скушал что-то около 16 mb - тут несомненно победитель - stopka - 100 mb - searchinfo - 200-250 mb про остальных не помню
результат по запросам - примерно одинаковый у всех - тут я могу еще играться - очень трудно выразить человеческую релевантность цифрой - поэтому вероятно алгоритм у всех примерно тот же с различными вариациями - lucent - тут может чуть в худшей ситуации - но это imho
качество продукта - я думаю можно определить поддрержкой и наличием сопутствующих фич - как то поддерживаемые форматы докуметнов, проверка на плагиат, ну и т.п.
т.е. по сути получается, что у вас производится морфологический и синтаксический (а возможно и семантический) разбор текста?
а как быть с техническими текстами, которые изобилуют терминами и сокращениями, и иногда в них встречаются формулы?
получается, что они круче Яндекса 🚬 🚬 🚬
протестируйте пожалуйста - линки вы найдете - у меня нет фирмы и своих программистов - поэтому пока продукт достаточно сырой - идей правда дофигища. гигабайт будет индексировать порядка 5-10 минут
ну 10 минут гиг это долго очень :) (если конечно там не файлики по 100 байт)
А вообще за сколько гиг некорректный вопрос. Гораздо интерсней за сколько например 500 гиг текста проиндексится. Дело в том что у любой системы производительность падает с увеличением числа данных только вот порог у кажой системы свой.
Для нас например реально 600 гиг -- террабайт на одном компе и порядка 30-40 млн документов.
У остальных систем предел ну намного меньше. А для корпоративного клиента без объемов смысла нет и без реального масштабирования и многих других вещей.
Виталий -- очень советую провести тесты на 100 гигах на 500 гигах и т.д. и уверен найдешь очень много интересного для себя и очень много узких мест :)
Твоя целеустремленность очень хорошее качество. Только советую верно расчитать силы, чтобы после определенного этапа не захотелось все это забросить, потому как без команды и сперьезных денег сдвинуть с мертвой точки нереально продукты ориентированные на корпоративный рынок..........
Виталий -- ты кажется в Минске живешь? Напиши мне свой телефон на leo собака softinform точка com Мне любопытно будет с тобой пересечься. Мне вообще интересны люди с идеями -- сам когда то из таких вышел :)