идея хорошая и несложная в реализации. Мне просто нужны все формулы по которым делать расчет требуемых от парсера результатов.
по моему скромному мнению большинство посетителей этого сайта игнорят такие сервисы(хотя и нуждаются в них) именно из-за необходимой обязательной оплаты. Модель описанная мной на мой взгляд решает эту проблему. Многие из нас сидируют торренты на волонтерских условиях.. тот же принцип будет работать и здесь.
На счет эффективности - все зависит от кол-ва клиентов на машинах пользователей. Здесь сложно что либо предположить.
вопрос в цене, вот к примеру ahrefs.com заявляет на своей главной странице что парсит веб на 10000 ядрах. Будем считать 1 ядро = 1 клиент. К примеру если произойдет чудо и мы тоже подключим 10к СЕОшников и каждый на своем компе установит наш клиент.. сколько по деньгам будет стоить обеспечить 10к клиентов рабочими проксями и какое их кол-во потребуется на 1 клиента ?
Хорошая идея для проекта. Есть несколько технических аспектов нормального решения для которых я пока не вижу -
Во первых это сам парсинг Гугла. Я сторонник подхода который описывал выше - тоесть СЕОшник ставит себе локально клиент и тот получает с сервера задания(ключи и к примеру локали под которые парсить) и парсит с машины на которой установлен выдачу Гугла и отправляет инфу на сервак. Так из ручейков с каждого клиента на сервере образуется океан данных. СЕОшник за проделанную работу получает кредиты и тратит их в сервисе. Здесь если парсить с одной айпи - Гугл быстро наложит бан. Раздавать всем подряд прокси с сервера не вариант(или вариант ?) и проксей на всех не напасешся. Нужно придумать как безболезнено для Гугла и пользователя парсить выдачу с клиентских машин..
спасибо.
Вот еще думаю над одной проблемой. Все заинтересованы в поиске входящих ссылок на свои ресурсы или ресурсы конкурентов.
Информация эта труднодоступна и зачастую стоит денег от различных сервисов таких к примеру как ahrefs.com
Наибольшая проблема в построении такого сервиса как ahrefs это ресурсы необходимые для краулеров мониторящих web в поиске искомой информации(к примеру backlinks) Актуальность информации выдаваемой этими сервисами напрямую будет зависеть от их серверных мощностей и способности обрабатывать определенный масив данных.
Так вот пришла в голову мысль - что если развернуть этот подход и перенести сбор и обработку информации на машины пользователей этого сервиса. К примеру вы СЕОшник и вас интересуют backlinks и прочая инфа. Вы регистрируетесь на сервисе, качаете десктопный клиент который устанавливаете у себя на компе. Он будет получать задания с сервера по обработке определенных веб ресурсов и передавать результаты обратно на сервер. За кол-во обработанной информации этим клиентом под вашей учетной записью вы будете получать энное кол-во кредитов которое позволит вам потратить их в сервисе для получения той или иной информации.
Есть смысл в таком подходе ?
проект заинтересовал.
где можно почитать инфомацию по какому принципу расчитывать внутренний вес страниц сайта базируясь на результатах его обхода ?
Ну к примеру учет входящих, исходящих ссылок со страницы.. как теже параметры ссылок с входящих страниц(какая глубина вложенности берется во внимание) влияют на вес искомой страницы ? Даже такое банальный вопрос - что есть активная(учавствующая в расчете) ссылка - это анкор который явно присутствует в HTML либо это даже динамическая ссылка которая была подрошена в DOM ?
Буду благодарен любой инфе на данную тему.
скажу так - у меня достаточно опыта, коммерческий опыт разработки с 2003 года, программирую с 1997. Основной язык Java. Пока все еще работаю нанятым батраком(я Solution Architect), паралельно веду свои проекты. В данный момент захотелось чего то нового, именно поэтому создал данную тему в надежде найти отправную точку для нового проекта.
обязательно, если когда либо попаду к Вам на интервью)
хоть милионы, сами данные и траверс по ним не вызовет и малейших проблем. Агрегация счетчиков возьмет время на этих данных но тоже не смертельно.
Для отчетов не обязательно валить весь лям ссылок на страницу - возможно ввести несколько абстрактных отчетов из которых пользователь при желании будет погружаться все глубже и глубже на выбранных участках графа
все зависит от требуемых отчетов..
Вот к примеру несколько вариантов для визуализации графа: https://neo4j.com/developer/guide-data-visualization/
https://www.youtube.com/watch?v=Dhh1Dfm9Eao