Создаем базу размеченных сайтов. Выбираем какой-то критерий разнообразия частотности в разных тематиках. Отбрасываем стопслова с порогом обрезания - Google

348

yanus

28 июня 2017, 10:28

#141

Игорь ( Родной Портал):
Это как? :)

Сервер + пара программистов = хороший парсер ))

Насчет дропа не совсем верно написал - в момент освобождения домена.

2

232

mendel

28 июня 2017, 11:36

#142

yanus:
Насчет дропа не совсем верно написал - в момент освобождения домена.

В том то и дело, что за это время можно и всю индексацию растерять, да и ПС часто отслеживают факт дропа. Нет, это работает, но всем было интересно как это "сразу, не потеряв индексацию". Так то я в свое время в некоторых зонах участвовал в таких гонках, и счет у нас шел на единицы милисекунд. Пришлешь раньше запрос - еще занято. Пришлешь позже - другой регистратор уже взял (естественно регистраторский протокол, не клиентский). Хорошие дропы забирают в первую секунду из освобождения даже в малопопулярных зонах. Ну пусть даже минуту. На индексацию это никак не повлияет.

Шутку любишь над Фомой, так люби и над собой. (с) народ. Бесплатные списки читабельных(!) свободных доменов (http://burzhu.net/showthread.php?t=2976) (5L.com) Сайты, All inclusive. 5* (/ru/forum/962215)

Где брать дропы для Дата освобождения домена в Непорядочность сотрудников Руцентра

348

yanus

28 июня 2017, 11:47

#143

mendel:
В том то и дело, что за это время можно и всю индексацию растерять, да и ПС часто отслеживают факт дропа. Нет, это работает, но всем было интересно как это "сразу, не потеряв индексацию". Так то я в свое время в некоторых зонах участвовал в таких гонках, и счет у нас шел на единицы милисекунд. Пришлешь раньше запрос - еще занято. Пришлешь позже - другой регистратор уже взял (естественно регистраторский протокол, не клиентский). Хорошие дропы забирают в первую секунду из освобождения даже в малопопулярных зонах. Ну пусть даже минуту. На индексацию это никак не повлияет.

А я и не говорил, что дропы лучшие отбираем. Тематические. Обычная заявка на регистрацию + проверка на наличие в индексе.

Жирные дропы можно точно так же, только стоимость перехвата сильно дороже.

В нашем случае, основные требования непрерывный индекс. Плюс тематичность с минимальным набором беклинков. По факту, особой разницы с "жирными" дропами нет.

А насчет отслеживает или нет гугл изменения владельцев доменов у всех свое мнение, лияно я считаю, что нет. А вот продолжительные "разрывы" индекса.

Как правильно сделать редирект, Google об использовании HTML-элемента Google Penguin исполнился год

232

mendel

28 июня 2017, 12:02

#144

yanus:
А насчет отслеживает или нет гугл изменения владельцев доменов у всех свое мнение, лияно я считаю, что нет.

ИМХО учитывает, но как один из факторов, ибо большой шанс ошибиться, так что вес у него не фантастичный и если правильно сделать то будет ок.

ПС: А как воскрешаете? Вебархив или кеш гугла?

Google: общее количество обратных Google: слова в URL Google о Page Experience

348

yanus

28 июня 2017, 13:14

#145

mendel:
ИМХО учитывает, но как один из факторов, ибо большой шанс ошибиться, так что вес у него не фантастичный и если правильно сделать то будет ок.
ПС: А как воскрешаете? Вебархив или кеш гугла?

Отовсюду откуда можно ))

На самом деле, основная проблема найти домены по названию которых явно тематика не проглядывается, но они нужной тематики. Ну, например отели jasmin-hotel.com и jasminparadise.com - по первому сразу понятно, что отель и налетает толпа желающих. А второй не такой явный и там шансы на перехват довольно высокие. В зоне fr так попадался сайт с 1500 ссылающимися доменами, причем не спамными. В com , конечно, сложнее - там могут и не глядя на тематику только из-за беклинков купить.

Google меняет настройки геотаргетинга Практическое использование текстового анализа Интересы пользователей, ищущих Яндексом

232

mendel

28 июня 2017, 15:21

#146

yanus:
В зоне fr так попадался сайт с 1500 ссылающимися доменами, причем не спамными.

Ну вот, а Костя в соседней теме рассказывает что тут никто тем не палит).

Я сейчас всерьез подумываю вернутся в эту тему. Правда внятных доступов с EPP у меня нет, да и в зонах типа доткома одного EPP мало. Но старые добрые методики которые использовались лет десять назад - вполне живы в менее популярных зонах, и могут давать рыбку даже с секундными задержками. Да что там - даже с минутными. В зонах где списки доменов закрыты - тех кто способен создать и оперативно обновлять базу - очень мало. Так что жЫрные домены могут "просто валяться под ногами", даже с очевидной тематикой. С базами доменов у меня всегда всё было хорошо. Так что может и вернусь в большую рыбалку).

Ну и в ответ по тематике: Это собственно не большая проблема. Повозиться конечно надо, но в целом простое умножение размеченных векторов на вектор ключей сайта дает вполне приличную картинку. В двух словах алгоритм такой:

Берем размеченную базу тематики сайтов. Да хоть бы и дамп ДМОЗ. Я бы взял его для начала. Он хорош еще и тем что имеет много языков.

Пускаем по нему паука, чтобы индексировал все эти сайты.

Составляем СЯ всей выборки, с частотностью слов.

Отбрасываем стопслова (с порогом обрезания надо поиграться, но в первом приближении 20% будет норм).

Составляем по каждому ключу его частотность в каждой тематике.

HINT: с деревьями тематик будет сложновато, плюс "хвосты" вам будут не особо нужны, так что лучше сразу максимально упростить дерево тематик отбросив сильно глубокие уровни вложенности. Хотя с вложенными тематиками безусловно интереснее.

Выбираем какой-то критерий разнообразия частотности в разных тематиках. Дисперсия, среднеквадратическое отклонение, не суть. Подобрать что лучше отражает выборку. Главное чтобы оно показывало максимум если слово встречается только в одной тематике, и минимум если частотность примерно одинакова.

По этой эвристике отбрасываем слова которые одинаково популярны во всех тематиках.

Собственно на выходе у нас база размеченых по тематике ключей.

Сверяем СЯ конкретного сайта с тематикой каждого ключа, тупо умножаем вес на частоту слова в СЯ сайта, складываем, и получаем коэффициенты у каждой тематики. Тут еще надо "резкость" навести - слабых подавить, сильных усилить, но это уже детали.

Алгоритм тюнингуем прогоняя наши СЯ размеченных сайтов и смотрим насколько удачны предсказания.

ПС: на истио довольно слабая база, она если я правильно помню делалась не по дмозу а по статистике из какого-то каталога типа ливинтернета. Но даже с этой базой если брать СЯ не одной страницы а всего сайта, и выводить графиком пропорционально, а не "самые весомые три категории", то в 90% случаев давала реалистичный результат. А в вашей задаче более качественная база, да плюс еще и беклинки (которым тематику тоже можно выдать) даст шикарный результат.

4

Ранжирование сайтов в медицинской Круглый SEO стол Покупка «Свежесть» как фактор в

MS

203

minSEO

29 июня 2017, 02:37

#147

Игорь ( Родной Портал):
Это в каких нишах?

меня интересовали home improvement и education, у селлеров много тематик.

Ссылки с топовых сайтов (BusinessInsider, HealthLine, Cosmopolitan, etc) для ваших белых проектов - https://searchengines.guru/ru/forum/1039568

352

Lor

29 июня 2017, 06:14

#148

Время кулибиных и эдисонов в интернете прошло. Сегодня нужны эйнштейны или рокфеллеры. А одиноким гениям осталось только предаваться мечтам на форумах типа этого. :)

Йопез - форум без модераторов. https://yopez.com

348

yanus

29 июня 2017, 07:48

#149

mendel:
Ну и в ответ по тематике: Это собственно не большая проблема. Повозиться конечно надо, но в целом простое умножение размеченных векторов на вектор ключей сайта дает вполне приличную картинку. В двух словах алгоритм такой:

Ну, как-то так оно и работает ))) Собственно хватает tf*idf, для грубой прикидки тематики.

1

323

234sha

29 июня 2017, 07:50

#150

А нормальные CPA кто какие использует для буржа на сайтах?

Люби жену, родителей, вино, быстрые тачки и бокс.

Зачем быть уникальным в мире, где все можно скопировать

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Все в бурж!