Ай, ну кто так отвечает? 😂
"После анализа и классификации Вашей просьбы наши алгоритмы решили отклонить ее." ;)
sokol_jack добавил 27.01.2009 в 22:21
Не ключевиков! Ключевики могут быть разными...
Грубо говоря - все слова приводим в нормальную форму, отбрасываем кое-что (стоп-слова, некоторые части речи и т.д.), для каждого оставшегося достаем все синонимы, которые знаем (ну, тут не так просто, но грубо говоря) и сравниваем 2 массива (первая и вторая страница). Если больше х% совпало - "тематичные".
Чувак... тут есть куча людей, у которых тиц то вверх, то вниз скачет. Причем, независимо от тематики. Послушайся wolfа, не делай железных выводов из 1 или 2 случаев. ;)
ИМХО тематику сайта (не ЯК или РСЯ) Яшка не определяет. Для страницы или кластера... уже хитрее. Вобщем-то, никто не мешает Яндексу "сравнивать" страницу на которой размещена ссылка со страницей куда она ведет. Если еще предположить, что Яндекс знает, что такое синонимы (а он таки знает ;) ), то грубо говоря ему не надо лопатить весь сайт и "вычислять" тематику. Достаточно "сравнить" 2 страницы и при совпадении более определенного % "ключиков" решить, что тематика похожа.
Я делаю так:
1. Смотрю страницы в индексе. Если есть - не бан.
2. Если в индексе страниц не осталось, анализируем беки и контент из архива. Обычно сразу видно кучу спама в беках или дороподобный ГС. Такие - выбрасываем.
3. Регаем что осталось, прописываем в днс, заливаем почти пустую страницу, аддурл.
Вобщем-то, если ловить домены с ТИЦ10-20 то при цене за домен 4$ (условно, рушки где-то так например, com немного дороже, но info дешевле) получается если один из 4-5 зареганых не в бане - уже можно на 0 выйти продав его.
Вот только рушки ловить фиг получается - то, что остается через час-два после освобождения и с ТИЦ - все в бане. Хотя через день-два и это регают :)
Я уже в теме про АП ТИЦ писал - профили прикрыли почти полностью (+10-20 не в счет), коменты сильно порезали, похоже к след апу совсем убьют (так и хсс, и логи за 2 апа под 0 уходили)...
Так что ИМХО гонять по коментам тем, кто гонял пора заканчивать ;)
Я встречал (поскольку наблюдаю не за одной сотней сайтов). Методы эти были не белого цвета. Спам по форумам, профилям, коментам, взломы через уязвимости.
А так как это не известно точно, "то можно предположить, что" это действительно так. А еще "можно предположить, что" чем выше ПР страницы - тем она круче. А еще "можно предположить, что" чем больше слово Яндекс на сайте употребить - тем лучше он (Яндекс) к такому сайту будет относится... 😂
Вобщем, "можно предположить" миллионы предположений. ;)
Морфология + группировка с одинаковыми "основами" + фильтрация некоторых частей речи + вычисление доминирующего числа и рода для каждой группы :)
Скоро выложу нормальную версию (и для скачивания тоже), сами посмотрите ;)
sokol_jack добавил 27.01.2009 в 13:35
Ну, железо-то и должно трудится.
И не путайте простоту и примитивизм ;)
Таки значительно хуже (без обид) 🙄
ИМХО достойные теги: Англия, банки, кредиты, страхование, риски, займы.
ИМХО достойные теги: курс, курсы, USD, валюты, торги.
Как минимум, неплохо бы приводить теги к ед. числу и им. падежу. Ведь тогда вероятность того, что мы попадем на популярный тег, ссылка на который есть и на главной намного выше. И тогда вес страницы с нашей ссылкой будет выше...
Получил, спасибо. Будь я модератором этих закладок - через 10 сек понял бы, что автопостинг ;)
Спорить не буду. Пока не буду ;)
sokol_jack добавил 27.01.2009 в 13:37
А вы попробуйте вобще одно-два слова вместо текста. Результат вас еще больше удивит (или порадует 😂).
Логично предположить, что чем больше текст - тем выше точность, нет?
Вобщем, все банально + random 😮
Да, если не сложно.
Фи :)
1. Вполне достаточно и Office 2003 для открытия и сохранения docx.
2. docx - это не xml. Это zip ;)
Вобщем, немного не понятно, что значит перевод из doc (грубо говоря, текст + обьекты) в XML.
Да, масштабирование "вниз" к одинаковому размеру и подсчет CRC + погрешность вполне может хватить.
Или например переводим в grayscale и считаем "количество" каждого цвета (можно без кластеризации, упрощенно) ;)