sokol_jack

Рейтинг
78
Регистрация
16.03.2008
wolf:
Ваша просьба была рассмотрена и отклонена :)

Ай, ну кто так отвечает? 😂

"После анализа и классификации Вашей просьбы наши алгоритмы решили отклонить ее." ;)

sokol_jack добавил 27.01.2009 в 22:21

s0ber:
2 sokol_jack

В общем к этому и веду разговор! :) Про процент ключевиков...

Не ключевиков! Ключевики могут быть разными...

Грубо говоря - все слова приводим в нормальную форму, отбрасываем кое-что (стоп-слова, некоторые части речи и т.д.), для каждого оставшегося достаем все синонимы, которые знаем (ну, тут не так просто, но грубо говоря) и сравниваем 2 массива (первая и вторая страница). Если больше х% совпало - "тематичные".

Neft:
чувак... объясни такую штуку. сайту присвоили рубрику, када в РСЯ принимали. я не долго думая в яке ссылок накупил - тиц вверх. потом рурбрику убрали - тиц вниз. сайт же не менял тематику, почему ссылы перестали работать?

Чувак... тут есть куча людей, у которых тиц то вверх, то вниз скачет. Причем, независимо от тематики. Послушайся wolfа, не делай железных выводов из 1 или 2 случаев. ;)

ИМХО тематику сайта (не ЯК или РСЯ) Яшка не определяет. Для страницы или кластера... уже хитрее. Вобщем-то, никто не мешает Яндексу "сравнивать" страницу на которой размещена ссылка со страницей куда она ведет. Если еще предположить, что Яндекс знает, что такое синонимы (а он таки знает ;) ), то грубо говоря ему не надо лопатить весь сайт и "вычислять" тематику. Достаточно "сравнить" 2 страницы и при совпадении более определенного % "ключиков" решить, что тематика похожа.

akhasanov:
Через webmaster.yandex.ru проверить уже давно не получается.

Есть какие-либо пути, кроме того, как пытаться смотреть остались ли страницы в индексе? :)

Я делаю так:

1. Смотрю страницы в индексе. Если есть - не бан.

2. Если в индексе страниц не осталось, анализируем беки и контент из архива. Обычно сразу видно кучу спама в беках или дороподобный ГС. Такие - выбрасываем.

3. Регаем что осталось, прописываем в днс, заливаем почти пустую страницу, аддурл.

Вобщем-то, если ловить домены с ТИЦ10-20 то при цене за домен 4$ (условно, рушки где-то так например, com немного дороже, но info дешевле) получается если один из 4-5 зареганых не в бане - уже можно на 0 выйти продав его.

Вот только рушки ловить фиг получается - то, что остается через час-два после освобождения и с ТИЦ - все в бане. Хотя через день-два и это регают :)

LEON101:
Можно спросить когда сайт гонялся по гестам юкоза? просто я прогнал по 800 коментам тиц 10 (ещё по каталогам гонял) и стоит ли теперь вообще гонять по коментам укоза?

Я уже в теме про АП ТИЦ писал - профили прикрыли почти полностью (+10-20 не в счет), коменты сильно порезали, похоже к след апу совсем убьют (так и хсс, и логи за 2 апа под 0 уходили)...

Так что ИМХО гонять по коментам тем, кто гонял пора заканчивать ;)

Top for the good:
Вопрос к ТС, а Вы встречали сайты, которые получают бан ТИЦ. С 3000 до нуля. И какие методы они использовали?

Я встречал (поскольку наблюдаю не за одной сотней сайтов). Методы эти были не белого цвета. Спам по форумам, профилям, коментам, взломы через уязвимости.

Константинович:
Чем больше виц, тем больше сумма виц, следовательно, тем больше тиц.
А так как виц не известен, то можно предположить, что чем больше тиц, тем больше виц. Так?
Если так, то тогда ссылка с сайта с большим тиц даёт больший прирост тиц, чем с сайта с тиц10, к примеру.

А так как это не известно точно, "то можно предположить, что" это действительно так. А еще "можно предположить, что" чем выше ПР страницы - тем она круче. А еще "можно предположить, что" чем больше слово Яндекс на сайте употребить - тем лучше он (Яндекс) к такому сайту будет относится... 😂

Вобщем, "можно предположить" миллионы предположений. ;)

BrokenBrake:
sokol_jack, а в сервисе из вашей подписи по какому алгоритму генерируются теги?

Морфология + группировка с одинаковыми "основами" + фильтрация некоторых частей речи + вычисление доминирующего числа и рода для каждой группы :)

Скоро выложу нормальную версию (и для скачивания тоже), сами посмотрите ;)

sokol_jack добавил 27.01.2009 в 13:35

SeWork:
А зачем нагружать сервер если есть простое и удобное решение? А банальное решение, это взять первые слова из текста, и засабмитить их в теги! Может слышали про гениальную простоту :)

Ну, железо-то и должно трудится.

И не путайте простоту и примитивизм ;)

Как видите теги генерируются ничуть не хуже чем у вас 🚬

Таки значительно хуже (без обид) 🙄

Как мы уже говорили в пятницу, Англия переходит на новый план спасения банков и стимулирования кредитной активности. Новейшие меры предполагают страхование банковских рисков по займам на фоне увеличение доли государственного присутствия в банковском

ИМХО достойные теги: Англия, банки, кредиты, страхование, риски, займы.

В пятницу на южноамериканской сессии курс USD США торговался разнонаправлено против главных валют. Сначала торгов рост южноамериканских фондовых индексов посодействовал курсам главных валют подняться против USD.

ИМХО достойные теги: курс, курсы, USD, валюты, торги.

Как минимум, неплохо бы приводить теги к ед. числу и им. падежу. Ведь тогда вероятность того, что мы попадем на популярный тег, ссылка на который есть и на главной намного выше. И тогда вес страницы с нашей ссылкой будет выше...

Ссылку на страницу аккаунта отправил в ПМ!

Получил, спасибо. Будь я модератором этих закладок - через 10 сек понял бы, что автопостинг ;)

P.S. Да и не думаю что при наличии в скрипте 100 RSS-лент для сабмита, пользователь захочет нагружать свой хостинг, или ВДС сложнейшей (никому не нужной в данном случае) генерацией тегов, по стоп словам, количеством символов, вычисление падежа, во избежание повтора и прочее и прочие параметры.

Спорить не буду. Пока не буду ;)

sokol_jack добавил 27.01.2009 в 13:37

SeWork:
Для сравнения прогнал те же тексты через ваше генератор.
Для Текста1 сгенерировалось всего 2 тега, хотя я указал 10
Для Текста2 сгенерировало 4 тега

А вы попробуйте вобще одно-два слова вместо текста. Результат вас еще больше удивит (или порадует 😂).

Логично предположить, что чем больше текст - тем выше точность, нет?

SeWork:
Нет, почему первое предложение? В RSS ленте есть свой заголовок новости, вот он и вставляется в поле "Заголовок"; описание первые 200-300 символов; теги генерируются из текста, но не самые частые слова, так как их из короткой новости просто напросто не определить, они выбираются случайно.

Вобщем, все банально + random 😮

Вам ссылку на аккаунт в социальных закладках дать?

Да, если не сложно.

neolord:
Office 2007

.docx это и есть xml

Фи :)

1. Вполне достаточно и Office 2003 для открытия и сохранения docx.

2. docx - это не xml. Это zip ;)

Вобщем, немного не понятно, что значит перевод из doc (грубо говоря, текст + обьекты) в XML.

JonnyB:
Если взять примитивный алгоритм, то храним мд5 хеши уменьшенных картинок, скажем 15х15, этого вполне достаточно для идентификации

Да, масштабирование "вниз" к одинаковому размеру и подсчет CRC + погрешность вполне может хватить.

Или например переводим в grayscale и считаем "количество" каждого цвета (можно без кластеризации, упрощенно) ;)

Всего: 1527