- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Вопрос сумбурный, сам еще до конца не понял, что хочу.
Мысль такая: есть ли где в мире фирмы, которые располагают своими индексирующимим пауками, но продают доступ к собранной ими информации.
Типа ходит какие-то подобие гугл-бота, собирает какую-то базу. Потом прихожу я, весь в белом, и на этой базе решаю какие-то свои утилитарные задачи (если база позволяет).
Google/Yahoo API не предлагать :)
Буду премного благодарственен.
Ну вообще наверно есть такие фирмы, но вряд с ними получится сделать что-то большее, чем свой полнотекстовый поисковик.
Что надо собирать и сколько планируется платить?
Арендовать сервер + поставить паука = юзать базу для своих целей.
Арендовать сервер + поставить паука = юзать базу для своих целей.
И какого паука? И какой сервер. Речь об индексации миллиарда страниц, к примеру.
Речь об индексации миллиарда страниц, к примеру.
Повторяю вопрос, ответ можно в приват,
какие данные нужны и сколько готовы платить?
Паука и сервер выбрать по условиям задачи. Индексацию миллиарда страниц в принципе потянет любой приличный сервер, вопрос во времени.
Индексацию миллиарда страниц в принципе потянет любой приличный сервер,
Вы путаете миллиард и миллион,
1,000,000,000 * 100 kb = 100 Tb = 100,000 Gb,
то есть порядка тысячи серверов, ...
Можно RAID использовать,
все зависит от нагрузки, ...
Вы путаете миллиард и миллион,
1,000,000,000 * 100 kb = 100 Tb = 100,000 Gb,
от куда взялась цифра 100 kb?
если делать базу как все сейчас делают, т.е. хранить не слово, а ID слова и координаты, то база будет занимать намного меньше вами предполагаемого места
http://index.bigmir.net/ - смотрим статистику поиска
грубо говоря, на 1 млн страниц нужно 6 гиг, в итоге, на 1000 млн нужно всего 6 тер, а не 100
для распределенной системы это не проблема, а она по любому будет распределенной, для такого объема
от куда взялась цифра 100 kb?
Грубая оценка места для одного документа.
Если считать по Яндексу http://company.yandex.ru/, средний размер страницы на текущий момент = (23 415 ГБ * 1024 * 1024) / 793 617 816 = 30,937 килобайта.
Под термином "Объем информации 90 Гб", на сайте http://index.bigmir.net/, понимается объём "чистых" текстов, т.е. без HTML форматирования и пр.
Как правило, пауки хранят у себя копии сайтов. В этом случае, для 1'000'000'000 документов потребуется как минимум 30'937'000'000 килобайт = 29'503,822 Гигабайт. Сюда надо добавить место для индекса. Что иногда бывает тоже не мало.
Всё это может потянуть одна машина, вопрос только в том, что это будет за машина :) Кто хочет прикинуть конфигурацию ?