daocrawler

daocrawler
Рейтинг
1
Регистрация
24.08.2016
seo11:
Если не секрет, чем парсите? Сколько времени занимает?

Одна нода нашего краулера за час обходит и обрабатывает ~1M урлов, но там еще достаточно много дополнительной вычислительной работы, не относящейся к ретириву информации, так что спеки по железу вам вряд ли что-то скажут, но если интересно - 64 CPU 128 Гб RAM на ноду. Здесь можно найти некоторый срез по стате http://data.statoperator.com/about/

Список доменов из Alexa Top 1M, на которых установлен счетчик LiveInternet http://data.statoperator.com/pub/li_domains

Всего 31514 доменов. Открыта/закрыта стата мы, конечно, не проверяем, но 30к чекнуть будет, в любом случае, проще.

Актуальность - сегодня, только что выгрузил.

m0ntag, пользуйтесь)

burunduk:
есть и другие алгоритмы для текущей задачи менее ресурсозатратные, для примера, 800к+ строк обрабатывается примерно за 5-7минут (обработка уже подготовленных данных), у меня немного другие задачи, но очень похожие
основная проблема, у меня, это работа с синонимами, автоматическая замена лем и удаление стоп слов (союзы, предлоги и не значимых для разбора лем, типа купить, сайт магазин, интернет и т.п.), а затем удаление не информационных созданных биграм, типа женский кожаный


P.S. а так да монетизация вычислительных мощностей дело хорошее, только вот ну очень не гибкое, под разные задачи тяжело масштабируемое :)

Не существует алгоритмов, которые умеют работать дешевле, чем за одну операцию чтения.

Для понимания, проще будет представить все ваши данные как некий объем, допустим 2TБ чего-то. Вы решили, что знаете как существенно их сократить различными операциями - сокращайте (не забывая тестировать качество того, что получаете на выходе), но для этого всё-равно требуется прочитать эти 2TБ. А если еще и отчёт хотите - то и дописать к ним значения.

burunduk:
это вообще очень легко сделать и на более глубоком уровне, обрабатывать не просто шинглы, а сначала прогнать шинглы через майстем, получить лемы, отсортировать внутри исходного шингла лемы по алфавиту и искать пересечение уже в лемах
задача легко решается даже на excel ;)

Давайте оперировать конкретными категориями. Для того, чтобы получить финальный показатель

дуплицированности на средний миллион страниц контента, вам требуется сделать группировку матрицы из 6-8 миллиардов строк. Не важно, что вы собираетесь с ней делать дальше, вам изначально нужно обработать этот объем информации. Наш сервис, по факту, монетизирует вычислительную мощность, которая требуется для того, чтобы роботами выкачать все что у вас есть + обсчитать. Вы не можете сделать большую map-reduce операцию во вменяемое время не создавая для этого вычислительный кластер. Просто мы делаем это за вас и достаточно быстро, предоставляя готовый отчет обо всем контенте, который вы транслиуете в веб. Если есть желание разбить это на леммы - пожалуйста (правда, по лицензии яндекса, нельзя его использовать для создания подобных систем), упрётесь вы при этом всё-равно в железо.

Lastwarrior:
Что еще за н-граммы? Сбрось хоть какой-то пример для начала.

Здесь https://en.wikipedia.org/wiki/N-gram можно почитать про н-граммы (шинглы)

Здесь http://data.statoperator.com/ можно наглядно посмотреть как это выглядит для любого сайта из топа, например http://data.statoperator.com/report/pornhub.com/

Всем привет.

Мы периодически обходим Alexa Top 1M и разбиваем морды на н-граммы. Могу сгрузить вам ради эксперимента н-граммы с морд китайских порников, если дадите условия выборки доменов из Top 1M

Если задача в том, чтобы маппить веб-приложение, то эту задачу адекватно решают сканеры безопасности, например Burp