mendel

mendel
Рейтинг
232
Регистрация
06.03.2008
yanus:
В зоне fr так попадался сайт с 1500 ссылающимися доменами, причем не спамными.

Ну вот, а Костя в соседней теме рассказывает что тут никто тем не палит).

Я сейчас всерьез подумываю вернутся в эту тему. Правда внятных доступов с EPP у меня нет, да и в зонах типа доткома одного EPP мало. Но старые добрые методики которые использовались лет десять назад - вполне живы в менее популярных зонах, и могут давать рыбку даже с секундными задержками. Да что там - даже с минутными. В зонах где списки доменов закрыты - тех кто способен создать и оперативно обновлять базу - очень мало. Так что жЫрные домены могут "просто валяться под ногами", даже с очевидной тематикой. С базами доменов у меня всегда всё было хорошо. Так что может и вернусь в большую рыбалку).

Ну и в ответ по тематике: Это собственно не большая проблема. Повозиться конечно надо, но в целом простое умножение размеченных векторов на вектор ключей сайта дает вполне приличную картинку. В двух словах алгоритм такой:

Берем размеченную базу тематики сайтов. Да хоть бы и дамп ДМОЗ. Я бы взял его для начала. Он хорош еще и тем что имеет много языков.

Пускаем по нему паука, чтобы индексировал все эти сайты.

Составляем СЯ всей выборки, с частотностью слов.

Отбрасываем стопслова (с порогом обрезания надо поиграться, но в первом приближении 20% будет норм).

Составляем по каждому ключу его частотность в каждой тематике.

HINT: с деревьями тематик будет сложновато, плюс "хвосты" вам будут не особо нужны, так что лучше сразу максимально упростить дерево тематик отбросив сильно глубокие уровни вложенности. Хотя с вложенными тематиками безусловно интереснее.

Выбираем какой-то критерий разнообразия частотности в разных тематиках. Дисперсия, среднеквадратическое отклонение, не суть. Подобрать что лучше отражает выборку. Главное чтобы оно показывало максимум если слово встречается только в одной тематике, и минимум если частотность примерно одинакова.

По этой эвристике отбрасываем слова которые одинаково популярны во всех тематиках.

Собственно на выходе у нас база размеченых по тематике ключей.

Сверяем СЯ конкретного сайта с тематикой каждого ключа, тупо умножаем вес на частоту слова в СЯ сайта, складываем, и получаем коэффициенты у каждой тематики. Тут еще надо "резкость" навести - слабых подавить, сильных усилить, но это уже детали.

Алгоритм тюнингуем прогоняя наши СЯ размеченных сайтов и смотрим насколько удачны предсказания.

ПС: на истио довольно слабая база, она если я правильно помню делалась не по дмозу а по статистике из какого-то каталога типа ливинтернета. Но даже с этой базой если брать СЯ не одной страницы а всего сайта, и выводить графиком пропорционально, а не "самые весомые три категории", то в 90% случаев давала реалистичный результат. А в вашей задаче более качественная база, да плюс еще и беклинки (которым тематику тоже можно выдать) даст шикарный результат.

Zexh:
А то что кошелек скопировали с беседы, но потом там он мистически как-то заменился... это до сих пор не понятно.
Zexh:
p.s. в мегастоке мы были и будем, просто временно там что-то рассогласовалось

Не знаю что там за мозайка, вчитываться лень. Но один мой хороший знакомый из близкого круга общения влип в очень и очень неприятную ситуацию в результате похода на психологический тренинг с применением психоделиков. Родственники рвут волосы на заднице (за неимением на голове), но ни вылететь в ту страну где события происходят, ни хоть узнать детали - не могут.

Завязывайте с этим делом, мой вам совет.

Zexh:
garant.pro гарантирует ИТОГ.

В конце игры и король и пешка попадают в деревянную коробку. Итог всегда один.)

yanus:
А насчет отслеживает или нет гугл изменения владельцев доменов у всех свое мнение, лияно я считаю, что нет.

ИМХО учитывает, но как один из факторов, ибо большой шанс ошибиться, так что вес у него не фантастичный и если правильно сделать то будет ок.

ПС: А как воскрешаете? Вебархив или кеш гугла?

Гога Р:
Есть страница/категория (не важно) со словом managers, пример site.ru/managers/

Как гипотеза, да, но.... откуда буква S? И почему баги а не отображение испманагера?

Нет, я встречался с такой ситуацией. Мой провайдер не пускает на домены содержащие в себе слово journal. Другие домены с того сервера ок, с других провов ок, а тут жопа. И ничего не сделать с ними.... Но я пока не вижу железных аргументов чтобы не искать других идей.

Каширин:
Это понты показать, что ты знаешь то, чего не знает никто. Но за разумную плату... И как у любых понтов, причина у них одна, - неуверенность в себе.

Я знаю что ты знаешь что я знаю что ты делал прошлым летом).

Помню как мне тут лет восемь назад некоторые особо одаренные угрожали узнав что я слил базу сапы. Мол весь интернет погубишь... Сейчас конечно страсти не те, но из полунамеков можно много интересного найти.

Человек жалуется что https убил его позиции. Смотришь на его сертификат и сразу все понимаешь. А еще Вася все еще собирает ключи с помощью.. А у Димы... Значит нужно самому... Костя опять критикует что-то в Курилке. Это к апу.... Темы они везде. Просто не все умеют их разглядеть. Отличить. От понтов.

yanus:
Насчет дропа не совсем верно написал - в момент освобождения домена.

В том то и дело, что за это время можно и всю индексацию растерять, да и ПС часто отслеживают факт дропа. Нет, это работает, но всем было интересно как это "сразу, не потеряв индексацию". Так то я в свое время в некоторых зонах участвовал в таких гонках, и счет у нас шел на единицы милисекунд. Пришлешь раньше запрос - еще занято. Пришлешь позже - другой регистратор уже взял (естественно регистраторский протокол, не клиентский). Хорошие дропы забирают в первую секунду из освобождения даже в малопопулярных зонах. Ну пусть даже минуту. На индексацию это никак не повлияет.

ТС - Гога Р. ТС не давал ссылок.

Segey - не ТС. Он привел ссылку на свой сайт на вордпресс в качестве подтверждения его словам, что мол не в ссылке дело, и не в вордпрессе, ведь у него этого нет. Аргумент так себе, но тем не менее - за сайт ТС он не сканает)

Гога Р:
504

Кто отдает 504?

Что в логах?

По логике у вас нгинс не может достучаться до апача.

Что в логах интересно?

melkozaur:
Блин...
Надо быть совсем новичком даже не в сео, а вообще в жизни, чтобы верить, что где-то палят темы и раскрывают секреты.

Нужно быть совсем новичком, чтобы думать что темы палятся прямым текстом.

Полунамеки, термины...

Каширин:
mendel, фашистов каких-то приплел

Это не фашист, а первый грам.наци. Ну вернее он фашист конечно, но в данном случае это просто мем.

Всего: 1906