Вопросы новичков. Часть 2.

plattoo
На сайте с 12.05.2010
Offline
195
#741
exarh:
а то все бабулер...бабулер

Таки, Бабулер, да!

vitvvs, по сути, автоматизировал, то, что Бабулер предлагает делать руками.

V
На сайте с 31.01.2008
Offline
146
#742
exarh:
Вот видишь , а то все бабулер...бабулер. Я вот этой хрени не знал. Помню что то про леммы читал и прочее.
Но как то не нужно это все, мне по крайней мере.
Однако для общего развития - попрет!

у поисковика есть база n-грамм и частотность это давно известно

например 3-граммы: бабушка получила пенсию встречается 500 раз на эталонных текстах

а: бабушка скушала мясо всего 2

б: бабушка выебала скворца 0

в: бабушка ударил кровать и подавно 0

все ваши тексты сверяются по фразам на частотность, там где дохрена биграмм с малой частотностью пиши привет, текст не естественный

вот же все написано http://download.yandex.ru/company/A_Kustarev_A_Raigorodsky_poisk_neestestvennih_textov_statia.pdf

вы хоть вакансии в yandex читайте https://yandex.ru/jobs/vacancies/dev/dev_linguistic_cpp

Имеется массив текстов на естественном языке размером примерно 1 Тб. Число различных словоформ в текстах – примерно 200 млн. Нужно собрать словарь из 20 млн самых частотных биграмм (пар рядом стоящих слов) за разумное время (не более недели) на минимально достаточной конфигурации оборудования.

можно начать с азов http://www.cir.ru/docs/ips/publications/2009_rcdl_markov.pdf

---------- Добавлено 12.10.2015 в 23:03 ----------

exarh:
Вот видишь , а то все бабулер...бабулер. Я вот этой хрени не знал. Помню что то про леммы читал и прочее.

Лемма это чуть другое, можно сказать это начальная форма слова

а n-грамма это фраза или слово например уно-грамма это однослово

би-грамма 2 слова, три-грамма и тд

здесь есть топы по частотности http://www.ruscorpora.ru/corpora-freq.html (у меня таблица в mysql 4-грамм по одному направлению из тематики даунлоад 11,327,408 4-грамм 2.7 ГБ )

а здесь более интересная инфа кому интересно https://nlpub.ru/%D0%A0%D0%B5%D1%81%D1%83%D1%80%D1%81%D1%8B

ps так что пишите господа свои генераторы

S0
На сайте с 06.01.2011
Offline
81
#743
atech:
Лично для меня сообщения от vitvvs были полезны, появились новые идеи для эксперементов, не понимаю почему напали на человека, он просто поделился своим опытом... 😕
вот twiprogon покажи хоть одно полезное сообщение написаное от тебя, ничего личного;)

Поддерживаю....

exarh
На сайте с 28.03.2010
Offline
503
#744
atech:
Лично для меня сообщения от vitvvs были полезны, появились новые идеи для эксперементов, не понимаю почему напали на человека, он просто поделился своим опытом... 😕

Так и я про это! Я извинился, перед ним страницу назад.

Но видимо чувак в 41 год уже зарделся и все гнет свою подгнившую линию, то

- вы хоть читайте(типа дураки - изучайте)

то

- шкрибите свою сотку (типа - нищеброды).

Недостойно взрослого человека))

Монетизируй (https://publishers.propellerads.com/#/pub/auth/signUp?ref_id=tnE) свой сайт с выгодой
KC
На сайте с 22.09.2012
Offline
123
KFC
#745

в принцапе, я так понимаю, этот яндекс не надо рассматривать при пилении доров. Потому что , если даже в индекс войдет, даст, трафа , то через недельку всё побанит

exarh
На сайте с 28.03.2010
Offline
503
#746
KFC:
в принцапе, я так понимаю, этот яндекс не надо рассматривать при пилении доров. Потому что , если даже в индекс войдет, даст, трафа , то через недельку всё побанит

ну почему же?

есть у меня пачки доров живущих с мая текущего года.

skarui
На сайте с 24.07.2014
Offline
48
#747
exarh:
ну почему же?
есть у меня пачки доров живущих с мая текущего года.

У меня доры в Яшке уже как квартал годовой живут. Все хорошо.Траф идет.

Программирование, продвижение, аналитика. Работаю в агентстве Skarui (http://skarui.ru). Увлекаюсь сайтами, дорвеями и трафикогенерацией! Иногда пишу в свой блог (http://skarui.ru/blog/karuev)
seo-Hunter
На сайте с 23.03.2013
Offline
55
#748

Народ посоветуйте плс алгоритм генерации текста. Какой на ваш взгляд самый нормальный?

plattoo
На сайте с 12.05.2010
Offline
195
#749
seo-Hunter:
Народ посоветуйте плс алгоритм генерации текста. Какой на ваш взгляд самый нормальный?

По знакам препинания который, я щетаю.

seo-Hunter
На сайте с 23.03.2013
Offline
55
#750

plattoo, спасибо за мнение! Ещё варианты? Суть в том, что подозреваю что Маркова уже не та

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий