Одна нода нашего краулера за час обходит и обрабатывает ~1M урлов, но там еще достаточно много дополнительной вычислительной работы, не относящейся к ретириву информации, так что спеки по железу вам вряд ли что-то скажут, но если интересно - 64 CPU 128 Гб RAM на ноду. Здесь можно найти некоторый срез по стате http://data.statoperator.com/about/
Список доменов из Alexa Top 1M, на которых установлен счетчик LiveInternet http://data.statoperator.com/pub/li_domains
Всего 31514 доменов. Открыта/закрыта стата мы, конечно, не проверяем, но 30к чекнуть будет, в любом случае, проще.
Актуальность - сегодня, только что выгрузил.
m0ntag, пользуйтесь)
Не существует алгоритмов, которые умеют работать дешевле, чем за одну операцию чтения.
Для понимания, проще будет представить все ваши данные как некий объем, допустим 2TБ чего-то. Вы решили, что знаете как существенно их сократить различными операциями - сокращайте (не забывая тестировать качество того, что получаете на выходе), но для этого всё-равно требуется прочитать эти 2TБ. А если еще и отчёт хотите - то и дописать к ним значения.
Давайте оперировать конкретными категориями. Для того, чтобы получить финальный показатель
дуплицированности на средний миллион страниц контента, вам требуется сделать группировку матрицы из 6-8 миллиардов строк. Не важно, что вы собираетесь с ней делать дальше, вам изначально нужно обработать этот объем информации. Наш сервис, по факту, монетизирует вычислительную мощность, которая требуется для того, чтобы роботами выкачать все что у вас есть + обсчитать. Вы не можете сделать большую map-reduce операцию во вменяемое время не создавая для этого вычислительный кластер. Просто мы делаем это за вас и достаточно быстро, предоставляя готовый отчет обо всем контенте, который вы транслиуете в веб. Если есть желание разбить это на леммы - пожалуйста (правда, по лицензии яндекса, нельзя его использовать для создания подобных систем), упрётесь вы при этом всё-равно в железо.
Здесь https://en.wikipedia.org/wiki/N-gram можно почитать про н-граммы (шинглы)
Здесь http://data.statoperator.com/ можно наглядно посмотреть как это выглядит для любого сайта из топа, например http://data.statoperator.com/report/pornhub.com/
Всем привет.
Мы периодически обходим Alexa Top 1M и разбиваем морды на н-граммы. Могу сгрузить вам ради эксперимента н-граммы с морд китайских порников, если дадите условия выборки доменов из Top 1M
Если задача в том, чтобы маппить веб-приложение, то эту задачу адекватно решают сканеры безопасности, например Burp