VenyaTolinov

Рейтинг
14
Регистрация
20.11.2010
tupak:
VenyaTolinov, если тебе так нравится кодить и получать деньги исключительно за вышедший продукт, то вот тебе тема:


подпили там свой генератор и продавай тексты по цене рерайта, а не как сейчас за копейки.

Качество текста там не плохое (что бы сказать хорошее надо изучать, мне честно лень), но ИМХО не мой масштаб. Каждый кто зарегестрируется в VP может сделать 60 Гб текста в месяц, всего за 10 долларов. Так что это совсем другая тема.

Да это будет ни перо Пушкина, но это будет именно текст, со всеми правилами русского или английского языка, с грамматикой, орфографией, пунктуацией и всё-всё-всё.

tupak:
вопросов нет. есть непонимание, которое я и высказал.
сапожник без сапог смотрится как-то неестественно и довольно уныло.

ну ладно, друг (а ведь мы теперь друзья :) ). не буду тебя больше доставать.

Хорошо. Не унывай друг. Ведь в современной экономике давно доминирует разделный труд. Не надо быть и жнецом и дуде игруном =) Лучше занимайся своим делом, но только делай это хорошо.

tupak:
вообщем ты умеешь делать доры, которые не идут в бан.
а не идут они в бан, потому что ты юзаешь морфологию и статистику слов.

а домены для своих небанящихся доров ты покупать не хочешь, ибо привык брать деньги только за программерский труд.

странный ты парень.

Послушай друг, я никак не пойму ты от меня что хочешь получить? У тебя ко мне вопросы? Пиши здесь, ты же видишь, если я могу я отвечаю.

Или у тебя притензии ко мне, тогда лучше в личку! Или может тебя просто жаба душит за мой программерский труд. Тут я тебе на советчик. Удачи!

tupak:
да я то мозговать не хочу. я уже всё для себя давно перемозговал.
так, потрындеть ниочём.


а что непононятного в моём посте?
люди используют контент из выдачи яндекса (снипеты), заливают на свои доры, доры немного посидят в выдаче и банятся.
мне кажется с дорами на твоем контенте происходит тоже самое.

Понятно! Кажется крестится надо! Я никогда снипеами не пользвался и пользоваться не буду, потому что это очень тупо пытаться впарать яндексу обрато его же высер.

tupak Извини, я ничего не понял. У тебя мысль светлая, оформи её в обычную серую рамку и выложи сюда - помозгуем.

http://www.seonews.ru/events/detail/119707.php:
Яндекс купил право использовать Программный Комплекс от компании Cognitive Technologies, который предоставляет возможность синтаксического анализа текста. Синтаксический анализ текста необходим для того, чтобы понять, какие отношения связывают слова в словосочетаниях или предложениях. «Применение синтаксического анализатора позволяет проводить сравнение текстов на основе встречаемости в них различных слов и конструкций и разрабатывать методы понимания текстов, извлечения данных из текстов, а также другие приложения», - сообщается в пресс-релизе компании.

Итак давайте разберёмся! 🚬 Что же такое синтаксический анализатор? Здесь сказано, что языковую систему условно можно разбить на уровни:

  • фонемный;
  • морфемный;
  • лексический (словесный);
  • синтаксический (уровень предложения).

Предположим что мы справились с пунктуацией и оказались на уровне предложения. Предложение состоит из лексем (слов), а слова из морф (частей слова, таких как корень, суффикс и т.д.), что даёт нам характеристику к какой части речи принадлежит слово. Частей речи в русском языке, с падежами, склонениям и прочим, чуть мене чем дофига http://corpus.leeds.ac.uk/mocky/ru-table.tab

Итак всё готово для синтаксического анализа: осталось узнать есть ли предложение с таким частями речи в языке? Здесь подходит тривиальное решение - база данных.

Собственно я не знаю что такого есть у Яндекса что не доступно простым смертным?

Может это:

http://company.yandex.ru/technology/mystem/help.xml:


В{В}мурелки{мурелка?|мурелки?|мурелок?}шлепают{шлепать}пельсиски{пельсиска?}

P.S.: Это я так понимаю собственная разработка яндекса, которую они всё таки решили не использовать 😂

sparsis:
ТС у вашей программы есть логический анализ текста для того, что б текст не терял своего смысла или она просто переставляет слова местами, что б разрушить шинглы?

Как это что бы смысл не терялся? Это синонимы? Или вообще как было в школе изложенение? 😂

Ezekiel:
Вот мне кто-нибудь объяснит чем закон Зипфа опасен для генерированного текста? Википедию читал, но там и опровержение закона есть. Он где-то используется?

Или, например, у меня текст генерируется цепями Маркова, конечно, все зависит от реализации, но, например, у меня учитывается частота появления слова в тексте. Попытаюсь объяснить на пальцах:
После анализа текста получается так, что после слова "Они" могут появляться слова "иногда", "вчера" и "сегодня". Предположим, что по исходному тексту слово "иногда" встречается чаще всех, соответственно, при генерации оно тоже будет всречаться чаще всех. Как это нарушает закон Зипфа?

В общем-то думаю никак, если у тебя как ты говоришь всё из одного монолитного куска текста. Только это офтоп! Сделай свою тему я подключусь, или пиши в личку - пообщаемся.

tupak:
для кого это? для саповодов?
имхо, ты ошибся номером, здесь люди трафик собирают, а не не лепят говносайты под сапу.
предложи трафогенерящий инструмент. и будет тебе почет и уважуха.

а говнокопипаст с синонимами отправь своим внукам в девяностые.
зы: только не обижайся.

Не, всё нормально! Давай порассуждаем. Если я ошибаюсь ты скажи. Ну во первых для кого? Люди интересовались - я пример сделал.

А если в общем? То синонимы - это что б были =) Согласен, это не есть сам траффик. Они скорей для того что бы дор имел более человеческий вид. Синонимайзеров тыщщи, синонимайзеров с морфологией единицы. Ты скажешь опять я со своей морфологией. Ну да, на мой взгляд это единственный козырь против поисковых роботов. Если нет морфолоигии - это сразу видно достаточно тривиальными алгоритмами. И если у тебя сайт (дор) на 50% без морфологии, это будет подозрительно. Здесь я ожидаю от тебя вопрос: а почему тогда все (или пусть не все) доры живут в индексе? А дело в том что этот алгоритм (назовём его валидатор текста) несколько медленней чем индексный бот, скажем 10-100 раз. Он придёт позже сделает свой "грязное" дело. Я считаю, что у ботов есть два основных ориентира: вероятностное соотношение слов в тексте, соответствующее языку, т.н. закон Зипфа, и морфология, а ну и ещё новые никому не известные технологии. Других признаков валидности текста я не знаю, может быть знают мои конкуренты, тогда обратитесь к ним.

ТС можешь скачать здесь и парсить не только яндекс. Надо будет немного подкрутить, что б скрипт не как прокси работал а прямо в файл сохранял.

1 234 5
Всего: 49