Рецепт прост:
Взял дроп в ~2017 году, наполнил, в ноябре судя по алексе пошел трафик (~> 1 к юзеров), и растет до сих пор, не вижу особых признаков подливы ботами.
Автор просто видит что трафик все еще растет , и его жаба душит отдавать по дешевой цене.
НО: посетители есть, а просмотров мало для такого сайта, и время проведения вангую там небольшое, а процент возвращения пользователей обратно в выдачу большой, поскольку большинство ответов очень маленькие, и вряд ли раскрывает суть вопроса.
Так что увы, покупка не перспективная. Я видел на переводах аналогические сайты от наших парней, но там реально красиво оформленные статьи с картинками, которые читаешь, и не сразу поймешь что это автоматически созданный сайт (ДОР-МФА).
Как понять что сайт перпективен: сравниваете график роста трафика с графиком роста ссылок (ahrefs). Они на нормальных аналогах совпадали. Это были человеческие ссылки, которыми пользователи на форумах\блогах делились, не включать сюда всякие говнопрогоны.
UNIX, хотя я на винде это делал под GnuWin32:
файлы должны быть в идеально одинаковой кодировке, и продублируйте первую строку в регулярках, а то хз почему, но ее игнорирует.
копирует в новой файл только слова, которые отвечают списку GREP_regex_List.txt:
grep -i -E -f GREP_regex_List.txt file_old.txt > file3_new.txt
отрывок-пример файла GREP_regex_List.txt (чистил несколькогигабайтную базу адалт-ключей от дестких слов):
ман по grep:
https://www.opennet.ru/man.shtml?topic=grep&category=1
Шпаргалка по регуляркам:
http://www.exlab.net/files/tools/sheets/regexp/regexp.png
Но сложные регулярки игнорировались, пришлось ими отдельно через EmEditor ручками пройтись: [Поиск - чекбокс "регулярные выр..." - Закладка"], потом просто удалить\вырезать строки с закладкой.
Пингвин тогда то ли не работал с регулярками, то ли не было под рукой (теперь 3 лицензии имеются :) )
найди просто парсер в котором можно отключить редиректы или подставить UserAgent гугла, и клоака теоретически должна отключится (если там не сложный алгоритм проверки):
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
UPD: от себя добавлю еще софтинки "Screaming Frog SEO Spider" и "Xenu". Ну и чтобы пауком не собирать ссылки на сайтах поищите наличие на них /robots.txt , а в нем ссылки на /sitemap.xml, вдруг повезет и все на блюдечке будет.
Дык пока ни у кого лучшего алгоритма нет, и сомневаюсь, что будет. Я еще пару лет назад проводил тесты по переводу ключей под доры по разным сервисам и офлайн прогам по переводу. Так вот все они более одинаково обрабатывали литературный текст (грубо-говоря «рефераты»). Но всякие молодежные сленги, матерщину и т.д. один только гугл норм переводил. Так что на нем и остановился.
Плюс там реально они после нового года алгоритм подправили. Стали переводиться фразы более «человекоподобно», а не «пословно», даже если язык оригинала с другой языковой группы, и там не совпадает алгоритм построения предложения. То есть текст теперь намного легче читается, не понять, что это машинный перевод. Я сравнивали на переводе с других языков на русский тех же текстов. Изменения коснулись именно сложных длинных предложений.
Так почитайте форумы насчет переводов. Как раз на английский\испанский не рекомендуют переводить. Ибо гугл в них очень хорошо разбирается и палит быстрее генеренку, бред, перевод. То есть обычно из английского переводят на другие языки, а не наоборот.
Зачем делать мультиязычный сайт, и улетать в бан всеми языками, если в дорах легче нагенерить под каждый язык свой дор независимый? Ну разве что у вас реально ПФ хорошие и гугл не забанит.
Ну если только подергать "Description" с сайтов, без парсинга выдачи, то быстро справится "Screaming Frog SEO Spider Tool". Но под него раньше надо было джаву настраивать (или конфига проги, не помню уже), так как по умолчанию ограничение на использование памяти стоит, которое сжирается при запуске крупных проектов. Как там сейчас хз.
ну там зенобокс (мини зенку под каждый шаблон) можно докупить. Это +10 баксов к цене шаблона.
Гугл очень придирчив сейчас к качеству прокси. Яндекс хз, не пользуюсь так как он ограничен RU-сектором.
Решил погуглить что же еще есть, нашел бесплатную прогу тут на форуме:
Top Analyzer - Программа для анализ контента сайтов конкурентов.
Хз как там с многоптоком, прокси и обновлениями, но получислось запустить, и даже гугл спарсила у меня.
Какая ПС нужна?
С дорогих универсальных такое А-парсер может делать. Да и большинство доргенов умеют парсить текстовку со сниппетов.
Могу впарить свой парсер на зенке по Bing на ZennoPoster:
Продаю парсер выдачи Bing на Get-запросах: ссылки + анкоры + сниппеты (поддержка прокси, куки)
Но учитывая, что рега у вас сегодняшняя, то стопудово сочтут за моего клона и скрытую рекламу :).
UPD: изначально подумал что надо только сниппеты (дискрипшены) с выдачи ПС спарсить, но походу человеку нужны с выдачи урлы сайтов-доноров, с которых уже потом надо содержание "description" вытянуть.
Так быстро вылетел из индекса и офнулся сай сразу?
Подозреваю что владелец просто тусуется в этом разделе и во избежание палева его схемы\сетки просто сам все подчистил либо жалобой в гугл на самого себя либо инструментами вебмастера, ели там есть такое...
Ибо палить чужые доры в паблик темах не по феншую.