- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Ну одна проверка текста Яндекса точно известна, она написана в списке вакансий http://company.yandex.ru/job/vacancies/dev_linguistic_cpp.xml :
Опишите оптимальный, по вашему мнению, сценарий решения этой задачи и необходимые инструменты. Оцените затраты реcурсов (количество машин, оперативная память, дисковое пространство под временные файлы и т.п.) и время счета.
Так что за хреновую частоту пар слов можно получить фильтр.
Так что за хреновую частоту пар слов можно получить фильтр.
Та ну, басни это все. Тот же РБ на стыках выдает ересь...
Да и простая морфологическая подмена без всяких там проверок лезет на ура.
Та ну, басни это все. Тот же РБ на стыках выдает ересь...
Да и простая морфологическая подмена без всяких там проверок лезет на ура.
Ну может быть, РБ просто давно не использую.
спасибо за обсуждения вопроса, господа умные головы! В трэде есть парочка очень интересных идей, но я сделал такой вот вывод. Делать алгоритм генерации текста надо с целью чтобы он вошел в индекс. А значит суметь обмануть яндекс, где 100+ программистов писали алгоритмы в сотрудничестве с профессорами русского языка, получали за это деньги и совершенстовали свою ПС. Думаю, это слишком не перспективно, в конце концов руско говорящих всего 50 млн ов в сети как максимум, а английский язык и проще раза в 2 и представителей о- несколько миллиардов.
нбд, городецкий и остальные, я думаю так, "обогнать" яшу можно, но не на пхп, и не мне, и не нам и незачем =)
По поводу маркова того же самого
можно вести статистику сочетаний слов например
круглый сыр 50 раз
груглый мяч 500 раз
и генерить нормируя по вероятности встречи т.е. чтобы в генеренном тексте круглый мяч встречался в 10 раз чаще чем круглый сыр.
тока на входе нужно прилично хорошей текстовки. например пару гиг чистого описательного текста без диалогов. (кто таким поделиться ;) ? )
lib.ru?
Диалоги из текста можно удалить =)
Если при вставке каждого слова проверять его на совместимость с предыдущим, и, стоит учесть, что процент "неверных" подстановок будет большой, что заставит проверять еще и еще - скорость генерации будет довольно медленной.
Сто слов в секунду - медленно? Тогда тупой рандом рулит - быстро и иногда (очень иногда) - в тему.
Да что угодно...
Количество "воды" в тексте. Количество несогласованных связок слов. Количество "неправильных" предложений - например, несколько подлежащих и сказуемых невообразимо наплетено. Количество слов, частота использования которых "обычно" ниже определенной границы.
У Яндекса есть индекс. Мало?!
Кому что больше нравится.
sokol_jack добавил 03.11.2009 в 21:48
может стоит поговорить об этом не в паблике?
Готов днями обсуждать в аське.
кто таким поделиться ?
Говори почту, а лучше сразу кошелек.
Сто слов в секунду - медленно? Тогда тупой рандом рулит - быстро и иногда (очень иногда) - в тему.
Ну, грубо говоря, не очень быстро, но в то же время этого должно хватать. Цифра взята с потолка или же такая машинка имеется? Дело в том, что доры на таком тесте держались бы в индексе не один месяц (если иметь в распоряжении текст такого качества, то и остальное, думаю, не хромало бы). Но в топе я что-то такого текста не встречал. Или вы не по адалту?
Количество "воды" в тексте.
Ну, водность это таки статический показатель. Имеется массив эталонного текста для данной тематики (скорее всего с разных мест собирался), и ваш текст. Сравниваем показатели, и если разница не критична - пускаем в индекс.
Количество "неправильных" предложений - например, несколько подлежащих и сказуемых невообразимо наплетено.
Ну... давай еще вспомним про замену русских букв на английские :D Это скорее не фильтры, а так, барьер против "особо умных".
Количество слов, частота использования которых "обычно" ниже определенной границы.
Ну, опять таки, сравнение происходит с массивом текста нужной тематики.
У Яндекса есть индекс. Мало?!
Ну, естественно про это сразу подумал, но метод заполучить ее не вижу. Понятен метод как на этапе подбора бд словосочетаний определить частотность, но это займет очень много времени.
Кому что больше нравится.
Да дело не в нравится, а в том, если текст будет соответствовать хотя бы нижней планке того, что мы тут обсуждаем, то моменты с неправильной вставкой омонимов не сыграют никакой роли.
Готов днями обсуждать в аське.
Эт да. А то все в подполье ушли...
В который раз открою тайну:
1. Яндекс не банит неуник - полно сателлитов, сделаных мной на неуникальном контенте в индексе Я. Большинство более 10к страниц в индексе годами висят.
2. можно вообще без текста как такового обойтись, трафа будет на порядок меньше, зато висят в индексе долго.
В который раз открою тайну:
1. Яндекс не банит неуник - полно сателлитов, сделаных мной на неуникальном контенте в индексе Я. Большинство более 10к страниц в индексе годами висят.
2. можно вообще без текста как такового обойтись, трафа будет на порядок меньше, зато висят в индексе долго.
1 - ну и сколько ты трафа имеешь на те свои неуник ГС? что-то порядка 1 уника в день на 1к страниц ;)
2 - дык ради трафа и думают над генерацией текста, или по твоему ради славы автора очередного бредогена? 😆