Пиринговая сеть для SEO-сервисов и приложений

1 23
SC
На сайте с 11.02.2013
Offline
57
#21

1. Оценивать стоимость парсинга только по кол-ву запросов неправильно, нужно еще смотреть на сами запросы и глубину. Как минимум, не помешает классификация на "естественные" и "технические".

2. Насколько такая сеть будет устойчива к накруткам? Что помешает юзеру просто выдавать рандомные результаты и брать за это деньги? Чисто физически все запросы перепроверять будет дорого. Вообще, есть проблема доверия к данным, полученным таким образом.

3. Проблема приватности - палим запросы потенциальным конкурентам

4. Нет никаких реальных гарантий доступности сервиса - после апдейта всем может понадобиться срочно глянуть позиции и система окажется загружена почти на 100%. В неподконтрольной децентрализованной сети невозможно даже гарантировать аптайм всех критичных для работы узлов (пример - аварии Skype в 2010, из-за которых архитектуру пересмотрели).

5. XML не может заменить парсинг выдачи, по крайней мере на данный момент (по причинам, указанным ранее в данной теме, а также невозможностью глянуть некоторые недокументированные параметры).

Да, капчи стали падать чаще, но лучшим лекарством от этого будет доработка парсеров, чтобы их поведение было сложно отличить от пользовательского. P2P-сеть эту проблему точно не решит.

30к запросов в месяц (не технических) - небольшой объем, возможно спарсить напрямую без капч и без прокси.

Злобный Гыук
На сайте с 30.08.2007
Offline
83
#22
юни:
Ну, можно и сравнить, к примеру. Не Вы одни годами парсите поисковую выдачу. А то как-то не вяжется "нет смысла" и "может" - уж что-то одно тогда.
Вы пробовали XML на 500к запросов, и не в месяц, а в сутки? С девятого что ли года народ плюётся на глюки сервиса, всплывающие на больших объёмах.

И больше в сутки снимается без проблем, правда не с одного аккаунта яндекса.

SEO-api для программистов (/ru/forum/869285)
юни
На сайте с 01.11.2005
Offline
930
#23
Serg_CS:
после апдейта всем может понадобиться срочно глянуть позиции и система окажется загружена почти на 100%.

Это не проблема. Пара серверов на расшаренном стомегабитном канале может держать пару десятков миллионов запросов в сутки - соответственно, в распределённой сети нагрузка падает пропорционально числе узлов.

Злобный Гыук:
правда не с одного аккаунта яндекса

А со скольки именно?

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
Romkin
На сайте с 07.03.2011
Offline
40
#24
Ditmar:
.. а не 5 коп., иначе софт будут сносить и никогда потом не поставят уже назад.

Я думаю даже добровольное вступление в такую сеть будет сулить участникам немало благ: использование в любой момент ресурсов уникальных IP для любых сертифицированных нужд. Сертифицировать сервисы и приложения мог бы некий совет разработчиков. Хочешь масштаба - вкидывай денег за сохранение баланса трафика.

Одно работающее приложение гораздо удобнее занозы в заднице с проксями.

Присущ:
Кей коллектор, это не только инструмент для сбора ся, а если вам надо раз в месяц ся, то врятли вы имеете навыки использовать эту программу, вы просто парсите частотность и список.

Не дайте мне поверить, что категоричность ваших заявлений опирается на сомнения в уровне моей компетентности )

Парсить ключи с цифрами можно руками или заказать за копейки в сравнение с ценой работы с прогой.

у многих весьма малые объемы для заказа на стороне, но они постоянны. Поэтому хватает использования по одному каналу.

ishipilov:
Создание пиринговой сети - дело хлопотное и затратное. Не проще ли использовать прокси?

в последнее время процент годных прокси постоянно снижается. Это и явилось главной причиной этой идеи.

На мой взгляд лучше использовать пиринговую ip-сео-сеть, к примеру, для сеток твиттер-аккаунтов.

сетку можно будет использовать для чего угодно, по голосованию участников, например.

andr0s:
Яндекс банит IP довольно быстро, если парсить "втупую" - а таких горе-вебмастеров большинство.

согласен, задавать ограничение. Или решать голосованием, на каких условиях подключать рассматриваемый сервис или приложение.

Бизнес-модель описанной вами сети имеет фатальные недостатки, которые я уже описал выше, и поэтому идея нежизнеспособна.

Можно ориентироваться на социальную модель, типа опенсоурс. Клиенты торрентов никто пока не сносит, ваша категоричность напрасна )

Arskillord:
Ну и какой смысл изобретать такую сложную систему, в которой все равно придется платить за большие объемы, когда используя XML можно парсить яндекс быстро и легальным способом. А XML лимиты стоят не дорого.

Качать можно не только выдачу, но и вордстат, эдвордс и пр. Уверен, что каналы хотя бы половины сеошников рунета на несколько порядков мощнее возможностей доступа к выдаче через XML.

Serg_CS:
1. Оценивать стоимость парсинга только по кол-ву запросов неправильно, нужно еще смотреть на сами запросы и глубину. Как минимум, не помешает классификация на "естественные" и "технические".
2. Насколько такая сеть будет устойчива к накруткам? Что помешает юзеру просто выдавать рандомные результаты и брать за это деньги? Чисто физически все запросы перепроверять будет дорого. Вообще, есть проблема доверия к данным, полученным таким образом.

Как я уже заметил выше установкой правил может заниматься некий "Совет разработчиков" )

3. Проблема приватности - палим запросы потенциальным конкурентам

соблазн и преимущества свободного wi-fi всегда перевешивали риски возможного сниффинга, не так ли? )

Да, капчи стали падать чаще, но лучшим лекарством от этого будет доработка парсеров, чтобы их поведение было сложно отличить от пользовательского. P2P-сеть эту проблему точно не решит.

многие операции парсинга в seo достаточно просты и упираются только в тайм-лимиты между запросами. Здесь всегда будет предел в скорости, естественной для человека. Поэтому для каждого "интеллиджента" будет существовать скорый предел производительности.

30к запросов в месяц (не технических) - небольшой объем, возможно спарсить напрямую без капч и без прокси.

иногда это нужно "до обеда".

юни:
Поинтересуйтесь, каков у них процент успешных запросов.

Именно!

Да, Ditmar, насчет "кулуаров". Разве эра "кулуарного seo" с адскими секретами уже не прошла? )

Не нужно слов - напиши формулу.
Злобный Гыук
На сайте с 30.08.2007
Offline
83
#25
юни:
А со скольки именно?

В данный момент с 9 акков, максимум на одном 150к, на остальных меньше. На будущее сделали так, чтобы на акке было примерно 50к запросов, как только заполняется, атоматом лимиты идут на следующий.

---------- Добавлено 02.04.2014 в 11:38 ----------

andr0s:
Яндекс.XML не показывает рекламные объявления, поэтому в ряде случаев бесполезен

Так объявления и напрямую можно слить с директа по поисковой фразе, причем сразу все, что есть... В чем разница с выдачей поиска?

юни
На сайте с 01.11.2005
Offline
930
#26
Злобный Гыук:
В данный момент с 9 акков, максимум на одном 150к, на остальных меньше.

У Вас получалось снять данные по 2-3 миллионам запросов в течение суток? Каков был процент ошибок?

Многие наши клиенты в своё время ушли от xml именно из-за проблем с объёмами.

S
На сайте с 03.04.2009
Offline
164
#27

если включить экономическую состовляющую то можно замутить биткоинт свой)

зы А сколько сейчас вы сможете с одного айпи сделать запросов?? не используя прокси

Злобный Гыук
На сайте с 30.08.2007
Offline
83
#28
юни:
У Вас получалось снять данные по 2-3 миллионам запросов в течение суток? Каков был процент ошибок?

Таких объемов пока нет. Но миллион в сутки снимается без проблем. Ошибки бывают, но их минимум. Иногда выпадает 20 ошибка яндекс-xml - точно не помню, но что то вроде "Внутренняя ошибка Яндекс-XML", на каком-нибудь элементарном запросе... ее можно побороть только изменив запрос, дописав например точку в конце запроса. Но повторюсь, эта ошибка выпадает раз на сотню тысяч запросов к xml-ке.

По поводу съема 2-3 миллионов - не думаю, что будет какое то проблемой их снять при наличии спроса, т.к. Акки разные, айпишки тоже из разных подсетей. Тут если только яндекс заартачится и прикроет всем, кто пользуется xml, кислород.

1 23

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий