- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Есть распознавание текстов на уровне алфавита, в котором всего 33 буквы. И есть 5-10 общеупотребительных шрифтов, которые используются в 90-95% случаев подготовки текстов. Всё это с успехом решают такие вещицы, как, например, ФайнРидер.
Вы подтвердили, что понятия не имеете о том, как работают подобные системы, как распозновательные, так и анализирующие.
😮
😆Отконкретизируйте, пожалуйста.
Мне даже не надо про меня именно, а по существу.;)
WSGU, Вы конечно указали верно, но на фуруме существует традиция, обсуждать все, что хоть как-то касается темы.
А можно меня будут звать не WSGU, а ИМХО ? :D
(GoodWin), Уговорили, беру ту-же травку.
Вы подтвердили, что понятия не имеете о том, как работают подобные системы, как распозновательные, так и анализирующие.
Со мной поделитесь!
Уважаемый, понимаете, - есть просто исследования, а есть их применение. Разницу ощущаете?
Вероятно, какие-то работы по определению текстовых дублей ведутся, но это только пока разработки. И не для "заплагиатчивания", а для ранжирования.
Яндекс уже давно применяет какую-то методику поиска нечетких дубликатов, чтобы не показывать все версии одного документа в выдаче.
Со мной поделитесь!
Смотря о что именно Вы хотите знать.
а по существу
- По существу, в этом топике уже все описанно.
Яшини "дубли" и "нечеткие дубли" (ибо нужно понимать, что все это с точки зрения самого Я) - это продукт побочный, выплывший в результате построения основного алгоритма.
Как работет его алгоритм - я конечно не знаю. Ведь достаточного количества данных для анализа нет, а в круг людей, общающихся с "платонами" на подобные темы я не вхожу.
Из того, что я вижу в поиске и то, что делал сам, могу заключить следующее (стараюсь не очень слушать "утечуи информации" из яши):
- Алгоритма поиска дублей просто нет, есть только некоторые эффекты, всплывающие по случаю.
- При данной реализации БД яши, вычленять дубли, практически невозможно, либо будет занимать очень большой рессурс (судя по всему, его уже не хватает)
- Распознование тематики, осмысленности и т.д. для текствов - реализуется просто, НО т.к. яша не собирается вступать в конфликт с действующим законом - делать не будет.
- По существу, в этом топике уже все описанно.
Яшини "дубли" и "нечеткие дубли" (ибо нужно понимать, что все это с точки зрения самого Я) - это продукт побочный, выплывший в результате построения основного алгоритма.
Как работет его алгоритм - я конечно не знаю. Ведь достаточного количества данных для анализа нет, а в круг людей, общающихся с "платонами" на подобные темы я не вхожу.
Из того, что я вижу в поиске и то, что делал сам, могу заключить следующее (стараюсь не очень слушать "утечуи информации" из яши):
- Алгоритма поиска дублей просто нет, есть только некоторые эффекты, всплывающие по случаю.
- При данной реализации БД яши, вычленять дубли, практически невозможно, либо будет занимать очень большой рессурс (судя по всему, его уже не хватает)
- Распознование тематики, осмысленности и т.д. для текствов - реализуется просто, НО т.к. яша не собирается вступать в конфликт с действующим законом - делать не будет.
Вот Вы как раз и гадаете. Просто гадаете. Про ПС, про что там у них происходит, как они это делают. Или не делают. Или собираются делать. Или уже придумали, но не знают как прикрутить. Или думают, - не проконсультирует ли их такой величайший специалист в этом деле как г-н ТРОН с четырьмя точками.
Я же написал только лишь про то, что
Про, грубо говоря, программно-аппаратный комплекс, который есть сейчас рядом, наверное, с каждым компьютером. И который делает точно то, что делает. С полнейшим успехом. И им пользуются миллионы пользователей на территории Российской Федерации и за её, как говорится, пределами.
Вы выспитесь сначала, уважаемый, после 14 февраля, - а потом рассуждайте.😆
Я же написал только лишь про то, что
Про, грубо говоря, программно-аппаратный комплекс, который есть сейчас рядом, наверное, с каждым компьютером. И который делает точно то, что делает. С полнейшим успехом. И им пользуются миллионы пользователей на территории Российской Федерации и за её, как говорится, пределами.
Вы выспитесь сначала, уважаемый, после 14 февраля, - а потом рассуждайте.😆
Это алгоритм определения четких дублей. А яндекс ищет также и нечеткие. Плюс нету у него возможности каждые два текста в рунете по буковке сравнить.
Про, грубо говоря, программно-аппаратный комплекс, который есть сейчас рядом, наверное, с каждым компьютером. И который делает точно то, что делает. С полнейшим успехом. И им пользуются миллионы пользователей на территории Российской Федерации и за её, как говорится, пределами.
Знаете, я Вам хочу сказать больше, текст с сайта можно взять, даже не используя файнриадер. Там ведь уже буковки (а не их изображение).
Но сей продукт, навенрное это вас удивит, делает только "механическую" работу. Он не может определитьключевые моменты текста, необходимы для формирования понятия "дубль".
Знаете, я Вам хочу сказать больше, текст с сайта можно взять, даже не используя файнриадер. Там ведь уже буковки (а не их изображение).
Но сей продукт, навенрное это вас удивит, делает только "механическую" работу. Он не может определитьключевые моменты текста, необходимы для формирования понятия "дубль".
Гы, ещё один (а сколько их уже тут) первооткрыватель Америки...😆 Ну ё-маё...
Понимаете, разница наших с Вами рассуждений в том, что никто точно не знает, что именно скрывается за фишкой "Показать все без исключения". И я, в отличие от Вас, не рискую что-либо утверждать в этом отношении. Вы только лишь на основе просто существования этой кнопочки делаете вывод о решении одной из актуальнейших полувековых компьютерных проблем. Какая наивность!
А вот сканер с ФР - он чуть ли не на каждом рабочем столе. И успешно работают и выполняют свои функции много лет. Не нужно сравнивать эти два совершенно разные явления вообще никак.
Гы, ещё один (а сколько их уже тут) первооткрыватель Америки...😆 Ну ё-маё...
Понимаете, разница наших с Вами рассуждений в том, что никто точно не знает, что именно скрывается за фишкой "Показать все без исключения". И я, в отличие от Вас, не рискую что-либо утверждать в этом отношении. Вы только лишь на основе просто существования этой кнопочки делаете вывод о решении одной из актуальнейших полувековых компьютерных проблем. Какая наивность!
Актуальнейшая полувековая компьютерная проблема требует для своего решения алгоритма который будет определять смысловые дубли с высокой точностью. Она так до сих пор и не решена.
Яндекс научился с некоторой погрешностью отсеивать самые наглые и простые дубликаты, и этим уже значительно улучшил свою выдачу. Речь шла именно о вопросе, как яндекс их отсеивает, эти простые дубликаты.
Яндекс научился с некоторой погрешностью отсеивать самые наглые и простые дубликаты, и этим уже значительно улучшил свою выдачу.
Как же Вы в этом уверены...😆
Вы 100 раз по разным запросам откройте "Показать все без исключения" и покажите, явите форуму и всему миру эти самые "наглые простые дубликаты". И в чём состоит их "дубликатность".😆
Ребята, идите выспитесь.:D
"Показать все без исключения"
Уважаемый, кто Вам сказал, что это фишка????? Наконец я понял, ура. Вы не только не порнимаете принцыпов решения подобных проблем, Вы еще и не понимаете саму проблему!
Не нужно сравнивать эти два совершенно разные явления вообще никак.
Как сравнить вещи, которые не связаны? Ули у вас ФН умеет искать текстовые дубликаты?(не копии).
Яндекс научился с некоторой погрешностью отсеивать самые наглые и простые дубликаты
Давайте начне с начала - для чего яше определять полные дубликаты? На мой взгляд - вариант только один - убрать из поиска "лишнюю" информацию.
Решение проблемы:
1. проверка на полную или частичную копию (требует небольшой рессурс, при этом имеет эффективность - ~5-10%)
2. проверка полного или частичного дубля (огромный рессурс, эффективность 50-60%)
3. отлов текстов, которые находятся на страницах с динамическими URL.
4. некие действия над дубликатами.
Вот в п.4. и вся суть. Если страница автора вдруг станет считаться "тенью" - следует обращение в суд.
Вопрос, накой все это нужно яше?