Ну вот, а Костя в соседней теме рассказывает что тут никто тем не палит).
Я сейчас всерьез подумываю вернутся в эту тему. Правда внятных доступов с EPP у меня нет, да и в зонах типа доткома одного EPP мало. Но старые добрые методики которые использовались лет десять назад - вполне живы в менее популярных зонах, и могут давать рыбку даже с секундными задержками. Да что там - даже с минутными. В зонах где списки доменов закрыты - тех кто способен создать и оперативно обновлять базу - очень мало. Так что жЫрные домены могут "просто валяться под ногами", даже с очевидной тематикой. С базами доменов у меня всегда всё было хорошо. Так что может и вернусь в большую рыбалку).
Ну и в ответ по тематике: Это собственно не большая проблема. Повозиться конечно надо, но в целом простое умножение размеченных векторов на вектор ключей сайта дает вполне приличную картинку. В двух словах алгоритм такой:
Берем размеченную базу тематики сайтов. Да хоть бы и дамп ДМОЗ. Я бы взял его для начала. Он хорош еще и тем что имеет много языков.
Пускаем по нему паука, чтобы индексировал все эти сайты.
Составляем СЯ всей выборки, с частотностью слов.
Отбрасываем стопслова (с порогом обрезания надо поиграться, но в первом приближении 20% будет норм).
Составляем по каждому ключу его частотность в каждой тематике.
HINT: с деревьями тематик будет сложновато, плюс "хвосты" вам будут не особо нужны, так что лучше сразу максимально упростить дерево тематик отбросив сильно глубокие уровни вложенности. Хотя с вложенными тематиками безусловно интереснее.
Выбираем какой-то критерий разнообразия частотности в разных тематиках. Дисперсия, среднеквадратическое отклонение, не суть. Подобрать что лучше отражает выборку. Главное чтобы оно показывало максимум если слово встречается только в одной тематике, и минимум если частотность примерно одинакова.
По этой эвристике отбрасываем слова которые одинаково популярны во всех тематиках.
Собственно на выходе у нас база размеченых по тематике ключей.
Сверяем СЯ конкретного сайта с тематикой каждого ключа, тупо умножаем вес на частоту слова в СЯ сайта, складываем, и получаем коэффициенты у каждой тематики. Тут еще надо "резкость" навести - слабых подавить, сильных усилить, но это уже детали.
Алгоритм тюнингуем прогоняя наши СЯ размеченных сайтов и смотрим насколько удачны предсказания.
ПС: на истио довольно слабая база, она если я правильно помню делалась не по дмозу а по статистике из какого-то каталога типа ливинтернета. Но даже с этой базой если брать СЯ не одной страницы а всего сайта, и выводить графиком пропорционально, а не "самые весомые три категории", то в 90% случаев давала реалистичный результат. А в вашей задаче более качественная база, да плюс еще и беклинки (которым тематику тоже можно выдать) даст шикарный результат.
Не знаю что там за мозайка, вчитываться лень. Но один мой хороший знакомый из близкого круга общения влип в очень и очень неприятную ситуацию в результате похода на психологический тренинг с применением психоделиков. Родственники рвут волосы на заднице (за неимением на голове), но ни вылететь в ту страну где события происходят, ни хоть узнать детали - не могут.
Завязывайте с этим делом, мой вам совет.
В конце игры и король и пешка попадают в деревянную коробку. Итог всегда один.)
ИМХО учитывает, но как один из факторов, ибо большой шанс ошибиться, так что вес у него не фантастичный и если правильно сделать то будет ок.
ПС: А как воскрешаете? Вебархив или кеш гугла?
Как гипотеза, да, но.... откуда буква S? И почему баги а не отображение испманагера?
Нет, я встречался с такой ситуацией. Мой провайдер не пускает на домены содержащие в себе слово journal. Другие домены с того сервера ок, с других провов ок, а тут жопа. И ничего не сделать с ними.... Но я пока не вижу железных аргументов чтобы не искать других идей.
Я знаю что ты знаешь что я знаю что ты делал прошлым летом).
Помню как мне тут лет восемь назад некоторые особо одаренные угрожали узнав что я слил базу сапы. Мол весь интернет погубишь... Сейчас конечно страсти не те, но из полунамеков можно много интересного найти.
Человек жалуется что https убил его позиции. Смотришь на его сертификат и сразу все понимаешь. А еще Вася все еще собирает ключи с помощью.. А у Димы... Значит нужно самому... Костя опять критикует что-то в Курилке. Это к апу.... Темы они везде. Просто не все умеют их разглядеть. Отличить. От понтов.
В том то и дело, что за это время можно и всю индексацию растерять, да и ПС часто отслеживают факт дропа. Нет, это работает, но всем было интересно как это "сразу, не потеряв индексацию". Так то я в свое время в некоторых зонах участвовал в таких гонках, и счет у нас шел на единицы милисекунд. Пришлешь раньше запрос - еще занято. Пришлешь позже - другой регистратор уже взял (естественно регистраторский протокол, не клиентский). Хорошие дропы забирают в первую секунду из освобождения даже в малопопулярных зонах. Ну пусть даже минуту. На индексацию это никак не повлияет.
ТС - Гога Р. ТС не давал ссылок.
Segey - не ТС. Он привел ссылку на свой сайт на вордпресс в качестве подтверждения его словам, что мол не в ссылке дело, и не в вордпрессе, ведь у него этого нет. Аргумент так себе, но тем не менее - за сайт ТС он не сканает)
Кто отдает 504?
Что в логах?
По логике у вас нгинс не может достучаться до апача.
Что в логах интересно?
Нужно быть совсем новичком, чтобы думать что темы палятся прямым текстом.
Полунамеки, термины...
Это не фашист, а первый грам.наци. Ну вернее он фашист конечно, но в данном случае это просто мем.