- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
![В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов](https://d.searchengines.guru/20/96/hacker-2-stock_600x314__f88c1615.jpg)
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
![Все что нужно знать о DDоS-атаках грамотному менеджеру](https://d.searchengines.guru/20/96/ddos_vc-1_600x314__16e230ee.jpg)
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть задача собрать из ру-нета страницы и документы рефератов или учебных материалов.
Периодически обходить подобные сайты на предмет появления новых материалов.
Время не критично. Главное - сбор подобного материала.
Веду поиск готовых решений, думаю, с возможностью модификации, заточкой.
Как я понимаю, моя задача сводится к написанию crawler'a с анализом контента страницы и дальнейшей качке документов (файлов или страницы).
Условия - OS Windows,язык не JAVA.
Хотелось бы еще отсеивать близкие по смыслу документы, но это в-последних.
PS Уже остановился на ASPSEEK, но узнаю, что он не собирается под Windows.
Посоветуйте, пожалуйста.:)
gkarr, http://searchengines.o0o.ru/
http://72.14.221.104/search?q=cache:XFFmuB5Gk_4J:www.searchtools.com/tools/tools-opensource.html+open+source+search&hl=ru&gl=ru&ct=clnk&cd=1&client=firefox-a
кэш гугла так как сайт был в дауне, покрайне мере когда я писал этот пост.
Благодарю :p
http://www.searchinform.com/site/ru/index.htm
Сейчас запускается инет релиз с неплохим краулером, который в состоянии но обычном компе с нормальным каналом откачивать и индексировать порядка 100 гиг чистого текста в сутки (это реально полтерабайта инет инфы)
Правда решение не бесплатное. :)
(это реально полтерабайта инет инфы)
- 5 мегабайт в секунду, если я правильно поделил ... это Вы называете "обычный комп с нормальным каналом"?
- 5 мегабайт в секунду, если я правильно поделил ... это Вы называете "обычный комп с нормальным каналом"?
Ну реально не 5 а 2,5 в секунду это реально где-то 8 гиг в час. Но тут надо учитывать что ряд серверов уже отдает в сжатом виде и после записи htm в базу это уже будет где-то 14 гиг в час. Далее умножаем 20 (с погрешностями) на 14 и получаем около 300 гиг
А комп обычный pentium с памятью 2 гига и частотой проца 3.
Стоит конкретно в одном из Чикагских датасентров. Ну естественно сервак выделенный чисто наш.
Стоит конкретно в одном из Чикагских датасентров.
- я бы не назвал это "обычный комп". "Обычный" для меня - это стоящий в московской квартире с выделенкой ...
Ну реально не 5 а 2,5 в секунду это реально где-то 8 гиг в час. Но тут надо учитывать что ряд серверов уже отдает в сжатом виде и после записи htm в базу это уже будет где-то 14 гиг в час. Далее умножаем 20 (с погрешностями) на 14 и получаем около 300 гиг
Т.е. речь идёт о простом выкачивании документов из Сети и записи их в базу в сажтом виде, и никакого разбиения на слова и построения обратного индекса на этом этапе не происходит ?
Т.е. речь идёт о простом выкачивании документов из Сети и записи их в базу в сажтом виде, и никакого разбиения на слова и построения обратного индекса на этом этапе не происходит ?
Eсть готовая статистика.
За 40 часов выкачано из сети около 4 млн страниц общим размером более 100 гиг. 11 миллионов в очереди еще, а вернее стоит на проверку, так как перед финальным занесением в очередь проверяется есть ли такой урл в базе
Все это проиндексировано (входит в эти же 40 часов) и можно искать не только полнотекстовым поиском и пользоватьс в том числе и поиском похожих. Все делалось на серваке в Чикаго. Характеристики сервака p4 3.0 Памяти 2 гига винт обычная 300-а.
Тестовый набор -- порядка 1500 сайтов (софт-каталоги).
На откачанной базе скорость поиска исходя из реалий инет (15% уникальных запросов) -- в среднем порядка 20000 запросов в час.
Сейчас идет очередной раунд оптимизации скоростей -- будет работать еще быстрей. Расчетные данные на 1 комп :
- 50 млн откачанных урлов
- около терабайта инфы (только htm соответственно)
Если кому то будет интересно думаю что оченб скоро сможем дать потестить на выделенном серваке под виндой.
Также уже сейчас мы обсуждаем ряд потенциальных заказов про созданию инет поисковиков, так как наша скорость позволит по нашим прикидкам проиндексить 30 тер инфы и около миллиарда страниц и отрабатывать порядка 1 мле запросов в час всего на 400-500 средненьких компах типа amd 2.6
Планируем запустить коробочное решение (кластеризуемое конечно) с условным названием " закажи свой инет поисковий у софтинформ "☝
Кстати кому интересно приглашаем на наш стэнд на софтуле -- номер H18