я думаю в этом и есть причина) Вы тоже своего рода "украли" контент =) Так что баш на баш))) Карма она такая))
У людей даже выбивает рерайты. Ваш способ не очень эффективен, точнее эффективен в рабоче-крестьянской семье) (так как уник текст определяется далеко не 100% вхождением фразы, люди могут просто рерайтить ваши тексты или сининимизировать)но в вашем случаи он годицо) я имею ввиду "...Проверял, вводя в поиске кусок предложения, 3-5 слов - мой сайт первый..." я нашел уже 4е сайта которые сделали копи-паст с вас. Сча в личку пришлю яшевый урл.
Мой способ к сожалению не скажу ибо он самописный, но вы можете поискать нечто подобное по фразам аля "анализатор сайтов", "анализатор текстов" они выделять "соль" вашего контента и поищут в сети сами эту "соль"
ни аправдалось подозрения.(я подумал вы тоже на укозе висите) Просто у меня все на CMS укозе было.... причем сайты были дор-сателит типа. Но многие делались под разными алгоритмами генерации контента. Контент был уник(я уверен, ибо проходил очень серезную пред-проверку), норм читабелен для людей, если пряглядывацо, только можно понять, что текст был генерирован и то надо сильно приглядыацо. Вообщем эмулилась полностью работа живых сайтов, но как спали нас уже голову сломал думать. Уже какие то фантастические идеи в голову лезут с тегами аля META content(могла моча в голову ударить инженерам яшы)Но у вас очень все качественно сделано. То ли CMS хорошая то ли в там руками все забиваете начиная от контента заканчивая титлами)
У ТС копи-паста только много, то ли он тырит, то ли с него тырят. У меня же уник все.
лично у меня различные продажные банеры-тизеры были в ноиндекс так что я не думаю что в этом дело. Попандер мог только спалицо(его пропустил, случайно на всех сайтах), ибо яша что то песала что сайты с попандерами будут наказывацо, но не думаю что так. Да и у ТС его нету(у меня не всплыл, код не копал)
ЗЫ. Думаю у нас с ТС разные причины.
TC, а не скажите ли адрессок вашего сайта. У меня такая же ситуация и есть некоторые подозрения(CMS у всех моих сайтов был один и тот же, есть некоторые подозрения)
Если чесно я вас немного не понимаю, дали ссылку. Я видел её. Красивая, но без полезная. С помощью каких query types я смогу собрать базу? Намек, дайте хотя бы если хотите заставить меня подумать. Но ссылку я видел, я перерыл кучи документов. Я ведь не зря написал что я перепробовал много инструментов начиная от google api, заканчивая yql. Этим инструментарием что вы дали я её богу не знаю что делать. Как мне например поможет "cache:" или "link:" или еще какой там черт с рогами.
Покажите кусок мне кода плз, я знаю большое кол-во языков, я разберусь. А миллионные базы это хорошо, это я по адресу зашел) Но то что вы предложили использовать доп. фильтры доменов это мне не подходит(серезно не подходит, мало того что мне трудно будет оценить вес сайтов в реальной позиции по ключу, так еще и не хватит мне 1000 ответов от гуглы даже еще делить доп. на зоны)
Насчет бана меня гуглей не извольте беспокоится. Я знаю слово валшебное - "пожалуста". Не банит меня гугла, вообщем не проблема это(кстате гугла банит не только по ИП, у гуглы хитрая механика заголовков, печенек, временные задержки + ИП, не надо даже в большинстве случаем прятаться за проксями)
а как это сделать? Я думал, идея простая и лежит на поверхности, только средств гугли, яшы, яху я не нашел так фильтровать.
>Проще взять какой-то скрипт поиска и автоматизировать забивание сайтов выдачи гугла.
не понял😕 Самого то списка сайтов у меня нету. У меня есть ключевик, есть результат выдачи. А я наоборот хочу достать список сайтов реагирующих на этот ключевик и уже с каждым разбирацо(PR, backlinks, unique...).
>Например искать по доменным зонам site:.su
не катит, думал. У меня по опреденным ключам до нескольких мульонов возвратов, надо все достать( причем начать с самого низа.
Я не думаю что это не возможно. По определенным косвенным признакам как то получают выдачи такие. Например для сбора баз для спама. По некоторым косвенным признакам собирают базы форумов, чатов, движков... а их тыщи.