- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Написал сервис анализа текста.
Выделение ключевых слов, определение тематики (спасибо garem за базу)
немного статистики и поиск копий в интернете... в данный момент ищет в яндексе и как правило находит только четкие дубли или с минимальным количеством изменений потому что мало запросов яша дает. Потом подключу более интеллектуальные алгоритмы.
Дизайна пока нет :)
http://max.8kb.ru
адрес временный, когда закончим тестирование я перенесу на основной домен и скажу новый адрес :)
Сразу скажу что термины указанные в статистике придуманы "с потолка"... если предложите лучше буду благодарен... если есть мысли что еще вы бы хотели видеть то буду рад.
Что вообще за цифры?
В осоновном работа идет со списком слов из которых были отброшены стопслова, оценочные эпитеты и прочие "водянистые слова".
Водность это процент отброшеных слов.. нормальное значение 30-60% помагает немного представить себе качество текста... лично я пользуюсь этим параметром чисто интуитивно..
Вес первой десятки это каков процент в "обезвоженных словах" занимает первые десять слов из словаря..
Срез 10/40% показывает сколько слов нужно взять чтобы получить 10/40% от обезвоженного словаря...
эти три параметры помогают понять частотное распределение ключевиков и прочего.. "правильных" цифр несуществует, для каждой задачи свои..
Чтобы было проще понять что такое "вода" с точки зрения сервиса я приведу два примера:
Пример первый:
Ты самое лучшее, что когдато было у меня. Я никогда не смогу сказать тебе об этом, однако это на самом деле так. Ты действительно лучший из всех. На самом деле я больше не могу без тебя. Когда ты наконец поймешь это?
Неужели я так и буду без тебя? Я так не смогу! Когда я думаю о тебе то я понимаю, что ты идеальный! Ты нужен мне. Я требую чтобы ты был моим! Ведь ты же знаешь, что только я смогу быть верной тебе. Я предлагаю тебе как можно быстрее прийти ко мне и стать моим. Я вся твоя, и я не знаю как я смогу без тебя. Мне нужен ты, и больше никто мне не нужен. Лучше меня не будет, чем я буду без тебя.
Пример второй:
Место жительства - город Одесса. Образование - Одесская Национальная Морская Академия. Специализация - программирование, интернет-технологии, электронная коммерция, руководство проектами. Эксцентричен, хитер, вспыльчив, коммуникабелен. Предпочитает носить одежду светлых тонов. Любвеобилен. Холост. Злоупотребляет интернетом. Знак зодиака - весы. Интелект выше среднего. Характер тяжелый. Знание иностранных языков - английский, французский. Интересуется психологией. Чувство стиля отсутствует. Эксплуатирует чужой труд. Занудный, скучный, наглый, темпераментный.
В первом примере 100% воды, во втором 0% воды :)
вообще конечно словарь будет еще правиться и правиться, но обая идея думаю ясна...
Добавил еще один алгоритм проверки на уникальность... :)
Он несколько более гибкий, но больше шанс ложного срабатывания... :)
Ну и работает он на yahoo в отличии от яндекса в первом...
поскольку у них разная скорость индексации разных ресурсов то думаю это разумно...
в общем пинаем, пинаем, и еще раз пинаем... :p ;)
плиз, по больше коментов.. чем больше вы будете критиковать тем лучше я его сделаю, а вы потом будете пользоваться... :)
ный --- 2 раз, 1.9% от ядра, 1.5% от всего текста
в тексте нет сочетания этих букв :) Сам текст привести могу только в личку
В принципе, правильно. Потому что вырезка эта из моей страницы Вконтакте %)
Длина БЕЗ пробелов и знаков препинания 0.202 тысяч символов.
Длина с пробелами 0.272 тысяч символов.
а зачем тут точка? :)
Твои ресницы - взмахом облака,
Твои слова - в них притяжение волнами,
Твой голос - звуки, музыка.
Ты мой магнит,
К тебе зовет и манит
Все существо, всю целиком меня,
Но только серце метко ранит
Тоска... ведь рядом нет тебя...
http://www.termitnik.ru/?a=poems&m=pg&pro=all&a_log=mayra
и где тут что-то аналогичное?
Неа :)
В заголовках точка не ставиться
в тексте нет сочетания этих букв :) Сам текст привести могу только в личку
слова после морфологии.. скорее всего глюк предсказателя... уже давно подумываю его отключить нафиг. но пока не решился.. кинь в личку плиз.
а зачем тут точка? :)
потому что "тысяч"
http://www.termitnik.ru/?a=poems&m=pg&pro=all&a_log=mayra
и где тут что-то аналогичное?
там было пару слов похожих... сильно короткий текст... для второго алгоритма мало пассажей, и он возможно изза этого неправильные запросы сгенерил... сделаю чтобы он в таких случаях не делал вообще этой проверки.... хотя текст короткий а значит можно ожидать такого.. да и я предупреждаю что у второго возможны ложные срабатывания...
Неа :)
не придирайся... всетаки топ5 ключевиков вышло:
волна, голос, музыка, звук,слово
както лень учить бота распознавать еще и поэзию отдельно )))
В заголовках точка не ставиться
угу.. есть такое, исправлюсь...
PS: спасибо, ты первый за 5 дней тестов кто так подробно высказался...
кинь в личку плиз.
кинул.
потому что "тысяч"
Пардон, не досмотрел. :) Но, имхо, без таких "тысячных" данных делать.
както лень учить бота распознавать еще и поэзию отдельно )))
:)))
PS: спасибо, ты первый за 5 дней тестов кто так подробно высказался...
Потому что интересуют инновации в таких темах разработок. :) Сам подумывал заняться таким, но в слишком упрощенной форме.
Думаю, ещё потестирую на досуге.
Progr@mmer\. добавил 25.05.2008 в 22:05
Длина БЕЗ пробелов и знаков препинания 1.055 тысяч символов.
Длина с пробелами 1.219 тысяч символов.
Оно же, но после проверки:
Длина без пробелов:1056.
Анализировал текст на этой странице. Результат:
Длина без пробелов:1950.
Текст НЕУНИКАЛЬНЫЙ(1).
Список сайтов на которых есть этот текст:
www.profi-sp.ru
Текст НЕУНИКАЛЬНЫЙ(2).
Список сайтов на которых есть этот текст:
www.profi-sp.ru
www.profi-sp.ru
www.referats.net
Водность текста: 35%
Вес первой десятки: 24%
Срез 10%: 3 слов.
Срез 40%: 23 слов.
Словарь текста: 164 слов.
Обезвоженный словарь: 115 слов.
Категории текста: Безопасность, Технологии, Компании.
Наиболее частые слова:
компания --- 10 раз, 6% от ядра, 3.9% от всего текста
система --- 6 раз, 3.6% от ядра, 2.3% от всего текста
бизнес --- 4 раз, 2.4% от ядра, 1.5% от всего текста
оборудование --- 4 раз, 2.4% от ядра, 1.5% от всего текста
комплекс --- 3 раз, 1.8% от ядра, 1.1% от всего текста
решение --- 3 раз, 1.8% от ядра, 1.1% от всего текста
лицензия --- 3 раз, 1.8% от ядра, 1.1% от всего текста
технология --- 3 раз, 1.8% от ядра, 1.1% от всего текста
проект --- 3 раз, 1.8% от ядра, 1.1% от всего текста
поставка --- 2 раз, 1.2% от ядра, 0.7% от всего текста
поставлять --- 2 раз, 1.2% от ядра, 0.7% от всего текста
включать --- 2 раз, 1.2% от ядра, 0.7% от всего текста
деятельность --- 2 раз, 1.2% от ядра, 0.7% от всего текста
работа --- 2 раз, 1.2% от ядра, 0.7% от всего текста
современный --- 2 раз, 1.2% от ядра, 0.7% от всего текста
обработка --- 2 раз, 1.2% от ядра, 0.7% от всего текста
развиваться --- 2 раз, 1.2% от ядра, 0.7% от всего текста
центр --- 2 раз, 1.2% от ядра, 0.7% от всего текста
сотрудник --- 2 раз, 1.2% от ядра, 0.7% от всего текста
внедрение --- 2 раз, 1.2% от ядра, 0.7% от всего текста
В общем, почти верно. Только здесь ничего похожего не наблюдается.
кинул.
спасибо... калоритный текст вышел...
наверное прийдется таки выключать когото из предсказателей...
Думаю, ещё потестирую на досуге.
буду благодарен.
Оно же, но после проверки:
а в JS этого нет... как думаешь какой вариант более правильный? удалить эту инструкцию в php или добавить ее в JS? :)
Только здесь ничего похожего не наблюдается.
похожее немного есть.. в таком то тексте )))
но конечно холостой выстрел... незнаю пока как с этим бороться.
кстати у копискайпа тоже периодически бывают неправильные копии...
--------->
как думаешь какой вариант более правильный?
Добавить в JS. Так будет правильнее.
--------->
объясни смысл?
вопервых через регулярку медленнее. а во вторых регулярка убирает только двойные...
а во вторых регулярка убирает только двойные...
а не наоборот?