Качество текста там не плохое (что бы сказать хорошее надо изучать, мне честно лень), но ИМХО не мой масштаб. Каждый кто зарегестрируется в VP может сделать 60 Гб текста в месяц, всего за 10 долларов. Так что это совсем другая тема.
Да это будет ни перо Пушкина, но это будет именно текст, со всеми правилами русского или английского языка, с грамматикой, орфографией, пунктуацией и всё-всё-всё.
Хорошо. Не унывай друг. Ведь в современной экономике давно доминирует разделный труд. Не надо быть и жнецом и дуде игруном =) Лучше занимайся своим делом, но только делай это хорошо.
Послушай друг, я никак не пойму ты от меня что хочешь получить? У тебя ко мне вопросы? Пиши здесь, ты же видишь, если я могу я отвечаю.
Или у тебя притензии ко мне, тогда лучше в личку! Или может тебя просто жаба душит за мой программерский труд. Тут я тебе на советчик. Удачи!
Понятно! Кажется крестится надо! Я никогда снипеами не пользвался и пользоваться не буду, потому что это очень тупо пытаться впарать яндексу обрато его же высер.
tupak Извини, я ничего не понял. У тебя мысль светлая, оформи её в обычную серую рамку и выложи сюда - помозгуем.
Итак давайте разберёмся! 🚬 Что же такое синтаксический анализатор? Здесь сказано, что языковую систему условно можно разбить на уровни:
Предположим что мы справились с пунктуацией и оказались на уровне предложения. Предложение состоит из лексем (слов), а слова из морф (частей слова, таких как корень, суффикс и т.д.), что даёт нам характеристику к какой части речи принадлежит слово. Частей речи в русском языке, с падежами, склонениям и прочим, чуть мене чем дофига http://corpus.leeds.ac.uk/mocky/ru-table.tab
Итак всё готово для синтаксического анализа: осталось узнать есть ли предложение с таким частями речи в языке? Здесь подходит тривиальное решение - база данных.
Собственно я не знаю что такого есть у Яндекса что не доступно простым смертным?
Может это:
P.S.: Это я так понимаю собственная разработка яндекса, которую они всё таки решили не использовать 😂
Как это что бы смысл не терялся? Это синонимы? Или вообще как было в школе изложенение? 😂
В общем-то думаю никак, если у тебя как ты говоришь всё из одного монолитного куска текста. Только это офтоп! Сделай свою тему я подключусь, или пиши в личку - пообщаемся.
Не, всё нормально! Давай порассуждаем. Если я ошибаюсь ты скажи. Ну во первых для кого? Люди интересовались - я пример сделал.
А если в общем? То синонимы - это что б были =) Согласен, это не есть сам траффик. Они скорей для того что бы дор имел более человеческий вид. Синонимайзеров тыщщи, синонимайзеров с морфологией единицы. Ты скажешь опять я со своей морфологией. Ну да, на мой взгляд это единственный козырь против поисковых роботов. Если нет морфолоигии - это сразу видно достаточно тривиальными алгоритмами. И если у тебя сайт (дор) на 50% без морфологии, это будет подозрительно. Здесь я ожидаю от тебя вопрос: а почему тогда все (или пусть не все) доры живут в индексе? А дело в том что этот алгоритм (назовём его валидатор текста) несколько медленней чем индексный бот, скажем 10-100 раз. Он придёт позже сделает свой "грязное" дело. Я считаю, что у ботов есть два основных ориентира: вероятностное соотношение слов в тексте, соответствующее языку, т.н. закон Зипфа, и морфология, а ну и ещё новые никому не известные технологии. Других признаков валидности текста я не знаю, может быть знают мои конкуренты, тогда обратитесь к ним.
ТС можешь скачать здесь и парсить не только яндекс. Надо будет немного подкрутить, что б скрипт не как прокси работал а прямо в файл сохранял.