orka13

orka13
Рейтинг
102
Регистрация
28.03.2011

Рецепт прост:

Взял дроп в ~2017 году, наполнил, в ноябре судя по алексе пошел трафик (~> 1 к юзеров), и растет до сих пор, не вижу особых признаков подливы ботами.

Автор просто видит что трафик все еще растет , и его жаба душит отдавать по дешевой цене.

НО: посетители есть, а просмотров мало для такого сайта, и время проведения вангую там небольшое, а процент возвращения пользователей обратно в выдачу большой, поскольку большинство ответов очень маленькие, и вряд ли раскрывает суть вопроса.

Так что увы, покупка не перспективная. Я видел на переводах аналогические сайты от наших парней, но там реально красиво оформленные статьи с картинками, которые читаешь, и не сразу поймешь что это автоматически созданный сайт (ДОР-МФА).

Как понять что сайт перпективен: сравниваете график роста трафика с графиком роста ссылок (ahrefs). Они на нормальных аналогах совпадали. Это были человеческие ссылки, которыми пользователи на форумах\блогах делились, не включать сюда всякие говнопрогоны.

UNIX, хотя я на винде это делал под GnuWin32:

файлы должны быть в идеально одинаковой кодировке, и продублируйте первую строку в регулярках, а то хз почему, но ее игнорирует.

копирует в новой файл только слова, которые отвечают списку GREP_regex_List.txt:

grep -i -E -f GREP_regex_List.txt file_old.txt > file3_new.txt

отрывок-пример файла GREP_regex_List.txt (чистил несколькогигабайтную базу адалт-ключей от дестких слов):

\bгруднич\w*\b
\bгруднич\w*\b
3.?лет
4.?лет
5.?лет
6.?лет
7.?лет
8.?лет
9.?лет
10.?лет
11.?лет
12.?лет
13.?лет
14.?лет
15.?лет
16.?лет
17.?лет
п.?ти.?лет
шест.*лет
семи.?лет
восьми.?лет
десят.*лет
динн?а.*лет
дв.?н.*лет
тр.?на.*лет
ч.?т.?рна*?лет
п.?тна.*лет
ш.?стна.*лет

ман по grep:

https://www.opennet.ru/man.shtml?topic=grep&category=1

Шпаргалка по регуляркам:

http://www.exlab.net/files/tools/sheets/regexp/regexp.png

Но сложные регулярки игнорировались, пришлось ими отдельно через EmEditor ручками пройтись: [Поиск - чекбокс "регулярные выр..." - Закладка"], потом просто удалить\вырезать строки с закладкой.

Пингвин тогда то ли не работал с регулярками, то ли не было под рукой (теперь 3 лицензии имеются :) )

_alex__:
на этих доменах стоит клоакинг, поэтому обратится к доменам напрямую проблемотично....

найди просто парсер в котором можно отключить редиректы или подставить UserAgent гугла, и клоака теоретически должна отключится (если там не сложный алгоритм проверки):

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

UPD: от себя добавлю еще софтинки "Screaming Frog SEO Spider" и "Xenu". Ну и чтобы пауком не собирать ссылки на сайтах поищите наличие на них /robots.txt , а в нем ссылки на /sitemap.xml, вдруг повезет и все на блюдечке будет.

Lastwarrior:
Тем более, что переводят-то в основном тем же Гугл переводчиком, вот они все сразу и палит своими алгоритмами 🍿

Дык пока ни у кого лучшего алгоритма нет, и сомневаюсь, что будет. Я еще пару лет назад проводил тесты по переводу ключей под доры по разным сервисам и офлайн прогам по переводу. Так вот все они более одинаково обрабатывали литературный текст (грубо-говоря «рефераты»). Но всякие молодежные сленги, матерщину и т.д. один только гугл норм переводил. Так что на нем и остановился.

Плюс там реально они после нового года алгоритм подправили. Стали переводиться фразы более «человекоподобно», а не «пословно», даже если язык оригинала с другой языковой группы, и там не совпадает алгоритм построения предложения. То есть текст теперь намного легче читается, не понять, что это машинный перевод. Я сравнивали на переводе с других языков на русский тех же текстов. Изменения коснулись именно сложных длинных предложений.

Так почитайте форумы насчет переводов. Как раз на английский\испанский не рекомендуют переводить. Ибо гугл в них очень хорошо разбирается и палит быстрее генеренку, бред, перевод. То есть обычно из английского переводят на другие языки, а не наоборот.

Зачем делать мультиязычный сайт, и улетать в бан всеми языками, если в дорах легче нагенерить под каждый язык свой дор независимый? Ну разве что у вас реально ПФ хорошие и гугл не забанит.

Yallo:
Я пробовала, он очень медленный...

Ну если только подергать "Description" с сайтов, без парсинга выдачи, то быстро справится "Screaming Frog SEO Spider Tool". Но под него раньше надо было джаву настраивать (или конфига проги, не помню уже), так как по умолчанию ограничение на использование памяти стоит, которое сжирается при запуске крупных проектов. Как там сейчас хз.

Yallo:
Не, зенку покупать не хочу))..

ну там зенобокс (мини зенку под каждый шаблон) можно докупить. Это +10 баксов к цене шаблона.

...ПС: Яндекс/Гугл/Бинг

Гугл очень придирчив сейчас к качеству прокси. Яндекс хз, не пользуюсь так как он ограничен RU-сектором.

Решил погуглить что же еще есть, нашел бесплатную прогу тут на форуме:

Top Analyzer - Программа для анализ контента сайтов конкурентов.

Хз как там с многоптоком, прокси и обновлениями, но получислось запустить, и даже гугл спарсила у меня.

Какая ПС нужна?

С дорогих универсальных такое А-парсер может делать. Да и большинство доргенов умеют парсить текстовку со сниппетов.

Могу впарить свой парсер на зенке по Bing на ZennoPoster:

Продаю парсер выдачи Bing на Get-запросах: ссылки + анкоры + сниппеты (поддержка прокси, куки)

Но учитывая, что рега у вас сегодняшняя, то стопудово сочтут за моего клона и скрытую рекламу :).

UPD: изначально подумал что надо только сниппеты (дискрипшены) с выдачи ПС спарсить, но походу человеку нужны с выдачи урлы сайтов-доноров, с которых уже потом надо содержание "description" вытянуть.

Так быстро вылетел из индекса и офнулся сай сразу?

Подозреваю что владелец просто тусуется в этом разделе и во избежание палева его схемы\сетки просто сам все подчистил либо жалобой в гугл на самого себя либо инструментами вебмастера, ели там есть такое...

Ибо палить чужые доры в паблик темах не по феншую.

Всего: 532