Все в бурж!

yanus
На сайте с 21.01.2009
Offline
348
#141
Игорь ( Родной Портал):
Это как? :)

Сервер + пара программистов = хороший парсер ))

Насчет дропа не совсем верно написал - в момент освобождения домена.

mendel
На сайте с 06.03.2008
Offline
232
#142
yanus:
Насчет дропа не совсем верно написал - в момент освобождения домена.

В том то и дело, что за это время можно и всю индексацию растерять, да и ПС часто отслеживают факт дропа. Нет, это работает, но всем было интересно как это "сразу, не потеряв индексацию". Так то я в свое время в некоторых зонах участвовал в таких гонках, и счет у нас шел на единицы милисекунд. Пришлешь раньше запрос - еще занято. Пришлешь позже - другой регистратор уже взял (естественно регистраторский протокол, не клиентский). Хорошие дропы забирают в первую секунду из освобождения даже в малопопулярных зонах. Ну пусть даже минуту. На индексацию это никак не повлияет.

Шутку любишь над Фомой, так люби и над собой. (с) народ. Бесплатные списки читабельных(!) свободных доменов (http://burzhu.net/showthread.php?t=2976) (5L.com) Сайты, All inclusive. 5* (/ru/forum/962215)
yanus
На сайте с 21.01.2009
Offline
348
#143
mendel:
В том то и дело, что за это время можно и всю индексацию растерять, да и ПС часто отслеживают факт дропа. Нет, это работает, но всем было интересно как это "сразу, не потеряв индексацию". Так то я в свое время в некоторых зонах участвовал в таких гонках, и счет у нас шел на единицы милисекунд. Пришлешь раньше запрос - еще занято. Пришлешь позже - другой регистратор уже взял (естественно регистраторский протокол, не клиентский). Хорошие дропы забирают в первую секунду из освобождения даже в малопопулярных зонах. Ну пусть даже минуту. На индексацию это никак не повлияет.

А я и не говорил, что дропы лучшие отбираем. Тематические. Обычная заявка на регистрацию + проверка на наличие в индексе.

Жирные дропы можно точно так же, только стоимость перехвата сильно дороже.

В нашем случае, основные требования непрерывный индекс. Плюс тематичность с минимальным набором беклинков. По факту, особой разницы с "жирными" дропами нет.

А насчет отслеживает или нет гугл изменения владельцев доменов у всех свое мнение, лияно я считаю, что нет. А вот продолжительные "разрывы" индекса.

mendel
На сайте с 06.03.2008
Offline
232
#144
yanus:
А насчет отслеживает или нет гугл изменения владельцев доменов у всех свое мнение, лияно я считаю, что нет.

ИМХО учитывает, но как один из факторов, ибо большой шанс ошибиться, так что вес у него не фантастичный и если правильно сделать то будет ок.

ПС: А как воскрешаете? Вебархив или кеш гугла?

yanus
На сайте с 21.01.2009
Offline
348
#145
mendel:
ИМХО учитывает, но как один из факторов, ибо большой шанс ошибиться, так что вес у него не фантастичный и если правильно сделать то будет ок.
ПС: А как воскрешаете? Вебархив или кеш гугла?

Отовсюду откуда можно ))

На самом деле, основная проблема найти домены по названию которых явно тематика не проглядывается, но они нужной тематики. Ну, например отели jasmin-hotel.com и jasminparadise.com - по первому сразу понятно, что отель и налетает толпа желающих. А второй не такой явный и там шансы на перехват довольно высокие. В зоне fr так попадался сайт с 1500 ссылающимися доменами, причем не спамными. В com , конечно, сложнее - там могут и не глядя на тематику только из-за беклинков купить.

mendel
На сайте с 06.03.2008
Offline
232
#146
yanus:
В зоне fr так попадался сайт с 1500 ссылающимися доменами, причем не спамными.

Ну вот, а Костя в соседней теме рассказывает что тут никто тем не палит).

Я сейчас всерьез подумываю вернутся в эту тему. Правда внятных доступов с EPP у меня нет, да и в зонах типа доткома одного EPP мало. Но старые добрые методики которые использовались лет десять назад - вполне живы в менее популярных зонах, и могут давать рыбку даже с секундными задержками. Да что там - даже с минутными. В зонах где списки доменов закрыты - тех кто способен создать и оперативно обновлять базу - очень мало. Так что жЫрные домены могут "просто валяться под ногами", даже с очевидной тематикой. С базами доменов у меня всегда всё было хорошо. Так что может и вернусь в большую рыбалку).

Ну и в ответ по тематике: Это собственно не большая проблема. Повозиться конечно надо, но в целом простое умножение размеченных векторов на вектор ключей сайта дает вполне приличную картинку. В двух словах алгоритм такой:

Берем размеченную базу тематики сайтов. Да хоть бы и дамп ДМОЗ. Я бы взял его для начала. Он хорош еще и тем что имеет много языков.

Пускаем по нему паука, чтобы индексировал все эти сайты.

Составляем СЯ всей выборки, с частотностью слов.

Отбрасываем стопслова (с порогом обрезания надо поиграться, но в первом приближении 20% будет норм).

Составляем по каждому ключу его частотность в каждой тематике.

HINT: с деревьями тематик будет сложновато, плюс "хвосты" вам будут не особо нужны, так что лучше сразу максимально упростить дерево тематик отбросив сильно глубокие уровни вложенности. Хотя с вложенными тематиками безусловно интереснее.

Выбираем какой-то критерий разнообразия частотности в разных тематиках. Дисперсия, среднеквадратическое отклонение, не суть. Подобрать что лучше отражает выборку. Главное чтобы оно показывало максимум если слово встречается только в одной тематике, и минимум если частотность примерно одинакова.

По этой эвристике отбрасываем слова которые одинаково популярны во всех тематиках.

Собственно на выходе у нас база размеченых по тематике ключей.

Сверяем СЯ конкретного сайта с тематикой каждого ключа, тупо умножаем вес на частоту слова в СЯ сайта, складываем, и получаем коэффициенты у каждой тематики. Тут еще надо "резкость" навести - слабых подавить, сильных усилить, но это уже детали.

Алгоритм тюнингуем прогоняя наши СЯ размеченных сайтов и смотрим насколько удачны предсказания.

ПС: на истио довольно слабая база, она если я правильно помню делалась не по дмозу а по статистике из какого-то каталога типа ливинтернета. Но даже с этой базой если брать СЯ не одной страницы а всего сайта, и выводить графиком пропорционально, а не "самые весомые три категории", то в 90% случаев давала реалистичный результат. А в вашей задаче более качественная база, да плюс еще и беклинки (которым тематику тоже можно выдать) даст шикарный результат.

MS
На сайте с 21.07.2008
Offline
203
#147
Игорь ( Родной Портал):
Это в каких нишах?

меня интересовали home improvement и education, у селлеров много тематик.

Ссылки с топовых сайтов (BusinessInsider, HealthLine, Cosmopolitan, etc) для ваших белых проектов - https://searchengines.guru/ru/forum/1039568
Lor
На сайте с 28.05.2004
Offline
352
Lor
#148

Время кулибиных и эдисонов в интернете прошло. Сегодня нужны эйнштейны или рокфеллеры. А одиноким гениям осталось только предаваться мечтам на форумах типа этого. :)

Йопез - форум без модераторов. https://yopez.com
yanus
На сайте с 21.01.2009
Offline
348
#149
mendel:
Ну и в ответ по тематике: Это собственно не большая проблема. Повозиться конечно надо, но в целом простое умножение размеченных векторов на вектор ключей сайта дает вполне приличную картинку. В двух словах алгоритм такой:

Ну, как-то так оно и работает ))) Собственно хватает tf*idf, для грубой прикидки тематики.

234sha
На сайте с 30.01.2007
Offline
323
#150

А нормальные CPA кто какие использует для буржа на сайтах?

Люби жену, родителей, вино, быстрые тачки и бокс.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий