- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Инвертированый индекс потому и называется инвертированым, потому что он перевернут.
Это сделано для того, чтобы поиск какого либо слова сводился к одному запросу по хештаблице.
Опять таки, у Вас формула какаято странная, да и простыми методами Вы просто так не вычислите потенциал сжатия. Это зависит от многих факторов.
Тут не в перевернутости дело) ;)
Допустим, вы намекаете, что некоторые слова встречаются только в 1-2 документах. Да! Это так. Но есть слова, которые встречаются почти во всех. Или 10%, допустим. Таких слов - тысячи, а возможно и десятки тысяч.
Так что даже если делать не полную матрицу, а именно списки, всё-равно много получается. Ну а в несжатом виде - таки 560 Тб по канону будет :)
Ок, я считал в другой плоскости, теперь понятно, как у вас. Теоретически, получается 14 млн слов * 10 млн страниц * 4 (байт) = 560 Тб несжатого индекса :)
В этой формуле почемуто сделано допущение, что в каждой из 10 млн страниц встречаются все 14 млн слов. Конечно это не так.
Расчет примерно такой, в целом словарь содержит 14 млн слов, средняя html страница, например на этом форуме, содержит 50 кб текста и каждый документ содержит всего лишь несколько сотен слов из словаря.
Как напишешь добавь мой сайт себе в поисковик))
http://vibirai.kz
А что будете делать когда индекс в несжатом виде достигнет тысячи терабайт и число обращений к поиску скажем 2-3кк в час. Как в таком случае будете ранжировать результаты? Ведь то что вы делаете сейчас это лишь теория основанная и подкреплена опытом работы с малыми объёмами данных (когда то первая версия Яндекса была похожа на ваше творение). Хотя я думаю сделаете отдельный индекс позиций на этот случай, сжимаемый по вашему методу (аналог PR, ТИЦ). ТС я прям предвкушаю пощупать ваше творение:-) когда уже будет готова веб-бетка?
+1 за семантический поиск по википедии. Исключительно хорошая идея ИМХО.
Зачем? Встроенный поиск вики юзать религия не позволяет?
/deldeldel
Демо есть?
Bazist, обратите внимание на будущее DNS-серверов, возможно, там Вы найдёте почву для Вашего поисковика.
https://www.google.com.ua/search?ie=UTF-8&hl=ru&q=dns-%D1%81%D0%B5%D1%80%D0%B2%D0%B5%D1%80%D0%B0%20%D0%B8%20%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D1%8B%D0%B5%20%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D1%8B
Слава яицам! Наконец то в разделе "поисковые технологии" появился человек который занимается поисковыми технологиями. Считал что данный раздел давно пора закрывать...
По сабжу - не знаю чем, но очень хочу помочь развитию Вашей системы.
Примите мои наилучшие пожелания.
Bazist, обратите внимание на будущее DNS-серверов, возможно, там Вы найдёте почву для Вашего поисковика.
https://www.google.com.ua/search?ie=UTF-8&hl=ru&q=dns-%D1%81%D0%B5%D1%80%D0%B2%D0%B5%D1%80%D0%B0%20%D0%B8%20%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D1%8B%D0%B5%20%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D1%8B
+1 Насколько мне известно Яндекс уже работает в этом направлении.