brunoid

Рейтинг
143
Регистрация
14.10.2008
Turon:
Вот тебе идея - /ru/forum/942938
Автор ее благополучно загубил... но все в твоих руках...

идея хорошая и несложная в реализации. Мне просто нужны все формулы по которым делать расчет требуемых от парсера результатов.

Присущ:
brunoid, А счего вы решили, что ктото изза копеечной экономии будет ставить на свой комп ваш клиент? А если будет, то оцените эффективность

пс. Они может и не лишние, но больше плюсов не вижу. работы с такими клиентами?

по моему скромному мнению большинство посетителей этого сайта игнорят такие сервисы(хотя и нуждаются в них) именно из-за необходимой обязательной оплаты. Модель описанная мной на мой взгляд решает эту проблему. Многие из нас сидируют торренты на волонтерских условиях.. тот же принцип будет работать и здесь.

На счет эффективности - все зависит от кол-ва клиентов на машинах пользователей. Здесь сложно что либо предположить.

юни:
От чего же.

вопрос в цене, вот к примеру ahrefs.com заявляет на своей главной странице что парсит веб на 10000 ядрах. Будем считать 1 ядро = 1 клиент. К примеру если произойдет чудо и мы тоже подключим 10к СЕОшников и каждый на своем компе установит наш клиент.. сколько по деньгам будет стоить обеспечить 10к клиентов рабочими проксями и какое их кол-во потребуется на 1 клиента ?

Присущ:
Анализатор топа, который максимально учитывал ( собирал и хранил по датам) внешние и внутренние факторы, которые поддаются определению с привязкой к сайту заказчика и к сайтом в серпе до 30-й позиции. Все это объединял в общею базу по всем пресекаемым запросам, чтоб можно было по запросу получить эти данные в удобной форме для отслеживания изменений в корреляции к местам в топе по каждому сайту или запросу во времени.

Сколько стоил бы результат - много. Сколько бы он приносил дохода создателю - не знаю. Но сильные игроки за это бы точно платили очень хорошо, а школьники могли бы покупать в таком сервисе отдельные услуги типа отслеживание позиций, сравнение текстовых факторов сайтов в топе и тд. того на чем создается главная база знаний.

Хорошая идея для проекта. Есть несколько технических аспектов нормального решения для которых я пока не вижу -

Во первых это сам парсинг Гугла. Я сторонник подхода который описывал выше - тоесть СЕОшник ставит себе локально клиент и тот получает с сервера задания(ключи и к примеру локали под которые парсить) и парсит с машины на которой установлен выдачу Гугла и отправляет инфу на сервак. Так из ручейков с каждого клиента на сервере образуется океан данных. СЕОшник за проделанную работу получает кредиты и тратит их в сервисе. Здесь если парсить с одной айпи - Гугл быстро наложит бан. Раздавать всем подряд прокси с сервера не вариант(или вариант ?) и проксей на всех не напасешся. Нужно придумать как безболезнено для Гугла и пользователя парсить выдачу с клиентских машин..

BlagFurer:
brunoid, Попробуйте начать вот тут https://www.page-weight.ru/theory/chapter/1/

спасибо.

Вот еще думаю над одной проблемой. Все заинтересованы в поиске входящих ссылок на свои ресурсы или ресурсы конкурентов.

Информация эта труднодоступна и зачастую стоит денег от различных сервисов таких к примеру как ahrefs.com

Наибольшая проблема в построении такого сервиса как ahrefs это ресурсы необходимые для краулеров мониторящих web в поиске искомой информации(к примеру backlinks) Актуальность информации выдаваемой этими сервисами напрямую будет зависеть от их серверных мощностей и способности обрабатывать определенный масив данных.

Так вот пришла в голову мысль - что если развернуть этот подход и перенести сбор и обработку информации на машины пользователей этого сервиса. К примеру вы СЕОшник и вас интересуют backlinks и прочая инфа. Вы регистрируетесь на сервисе, качаете десктопный клиент который устанавливаете у себя на компе. Он будет получать задания с сервера по обработке определенных веб ресурсов и передавать результаты обратно на сервер. За кол-во обработанной информации этим клиентом под вашей учетной записью вы будете получать энное кол-во кредитов которое позволит вам потратить их в сервисе для получения той или иной информации.

Есть смысл в таком подходе ?

anebilitsa:
Это только часть функционала. Я дал идею, а развивать тему можно далеко. Но зачем мне тратить на это время, если я не пишу эту программу для себя?

проект заинтересовал.

где можно почитать инфомацию по какому принципу расчитывать внутренний вес страниц сайта базируясь на результатах его обхода ?

Ну к примеру учет входящих, исходящих ссылок со страницы.. как теже параметры ссылок с входящих страниц(какая глубина вложенности берется во внимание) влияют на вес искомой страницы ? Даже такое банальный вопрос - что есть активная(учавствующая в расчете) ссылка - это анкор который явно присутствует в HTML либо это даже динамическая ссылка которая была подрошена в DOM ?

Буду благодарен любой инфе на данную тему.

юни:
brunoid, от Вашей квалификации зависит, какую идею Вам предлагать.

Не обязательно ко мне, но можете считать, что оно уже началось.

скажу так - у меня достаточно опыта, коммерческий опыт разработки с 2003 года, программирую с 1997. Основной язык Java. Пока все еще работаю нанятым батраком(я Solution Architect), паралельно веду свои проекты. В данный момент захотелось чего то нового, именно поэтому создал данную тему в надежде найти отправную точку для нового проекта.

юни:
brunoid, у Вас большой опыт работы программистом? Можете показать завершённые проекты?

обязательно, если когда либо попаду к Вам на интервью)

SamCram:
ИМХО - Такая визуализация подойдет только для сайтов меньше 1000 страниц.

Попробуйте вручную сделать ссылочный граф для сайтов с 10к/100к страниц - и подумайте, получится ли сделать универсальный инструмент для этого.

хоть милионы, сами данные и траверс по ним не вызовет и малейших проблем. Агрегация счетчиков возьмет время на этих данных но тоже не смертельно.

Для отчетов не обязательно валить весь лям ссылок на страницу - возможно ввести несколько абстрактных отчетов из которых пользователь при желании будет погружаться все глубже и глубже на выбранных участках графа

SamCram:
Графически - вам будет ничего не понятно. Там слишком сложные связи для визуализации.

все зависит от требуемых отчетов..

Вот к примеру несколько вариантов для визуализации графа: https://neo4j.com/developer/guide-data-visualization/

https://www.youtube.com/watch?v=Dhh1Dfm9Eao

Всего: 631