Эксперимент: Яндекс, тематика, ТИЦ и все-все-все :)

SJ
На сайте с 16.03.2008
Offline
78
#31
di_max:
1. с беглой Ё и О - берёг>берегла; любовь>любви(д.п.); церковь>церквей(мн,р.п.) и тп.

pseudo_root: БЕР base form = БЕРЕЧЬ

pseudo_root: БЕР base form = БЕРЕЧЬ

pseudo_root: ЛЮБОВ ЛЮБ base form = ЛЮБОВЬ

pseudo_root: ЛЮБ base form = ЛЮБОВЬ

pseudo_root: ЦЕРК base form = ЦЕРКОВЬ

pseudo_root: ЦЕРК base form = ЦЕРКОВЬ

2 "она-нок" - ребенок>ребенка(р.п.)

pseudo_root: base form = РЕБЕНОК

pseudo_root: base form = РЕБЕНОК

3. с беглой Е - камень>камня(р.п.); свинец>свинца(р.п.); горошек>горошка(р.п.) и тп.

pseudo_root: КАМ base form = КАМЕНЬ

pseudo_root: КАМ base form = КАМЕНЬ

pseudo_root: СВИН base form = СВИНЕЦ

pseudo_root: СВИН base form = СВИНЕЦ

pseudo_root: ГОРОШ base form = ГОРОШЕК

pseudo_root: ГОРОШ base form = ГОРОШЕК

4. с беглой О - петушок>петушка(р.п.); коготь>когтя(р.п.); огонь>огня(р.п.) и тп.

pseudo_root: ПЕТУШ base form = ПЕТУШОК

pseudo_root: ПЕТУШ base form = ПЕТУШОК

pseudo_root: КОГ base form = КОГОТЬ

pseudo_root: КОГ base form = КОГОТЬ, КОГТИТЬ

pseudo_root: ОГ base form = ОГОНЬ

pseudo_root: ОГ base form = ОГОНЬ

5. с беглой Ё и Й - паёк>пайку(д.п.); буёк>буйком(т.п.)

pseudo_root: ПА base form = ПАЕК, ПАЙКА

pseudo_root: ПА base form = ПАЕК, ПАЙКА

pseudo_root: БУ base form = БУЕК

pseudo_root: БУ base form = БУЕК

6. существительные существующие только во мн.ч. - сласти>сластями(т.п.); бусы>бусам(д.п.)

pseudo_root: СЛАСТ СЛА base form = СЛАСТЬ, СЛАСТИТЬ

pseudo_root: СЛАСТ base form = СЛАСТЬ

pseudo_root: БУС base form = БУСЫ

pseudo_root: БУС base form = БУСЫ

7. существительные м.р. на -ор с беглой о: только ед.ч. - багоР>багРа(р.п.)

pseudo_root: БАГ base form = БАГОР

pseudo_root: БАГ base form = БАГОР

8. - земля>землЕю(т.п.); армия>армий(мн,р.п.); спальня>спален(мн,р.п.); беглец>беглецов(мн,в.п.)

pseudo_root: ЗЕМ base form = ЗЕМЛЯ

pseudo_root: ЗЕМ base form = ЗЕМЛЯ

pseudo_root: АРМИ base form = АРМИЯ

pseudo_root: АРМИ base form = АРМИЯ

pseudo_root: СПАЛ base form = СПАЛЬНЯ

pseudo_root: СПАЛ base form = СПАЛЬНЫЙ, СПАЛЬНЯ, СПАЛИТЬ

pseudo_root: БЕГЛЕЦ base form = БЕГЛЕЦ

pseudo_root: БЕГЛЕЦ base form = БЕГЛЕЦ

Вот ышо замечательный пример, приведу полностью: вошь

pseudo_root: В base form = ВОШЬ

all forms = ВОШЬ, ВШИ, ВОШЬЮ, ВШЕЙ, ВШАМ, ВШАМИ, ВШАХ

Еще вариант:
Туши - сущ. (мясные);
Туши - сущ. (краски);
Туши - глагол.

pseudo_root: ТУШ base form = ТУШЬ, ТУШИТЬ, ТУШ, ТУША

all forms = ТУШЬ, ТУШИ, ТУШЬЮ, ТУШЕЙ, ТУШАМ, ТУШАМИ, ТУШАХ, ТУШИТЬ, ТУШУ, ТУШИМ, ТУШИШЬ, ТУШИТЕ, ТУШИТ, ТУШАТ, ТУШИЛ, ТУШИЛА, ТУШИЛО, ТУШИЛИ, ТУША, ТУШИВ, ТУШИВШИ, ТУШАЩИЙ, ТУШАЩЕГО, ТУШАЩЕМУ, ТУШАЩИМ, ТУШАЩЕМ, ТУШАЩАЯ, ТУШАЩЕЙ, ТУШАЩУЮ, ТУШАЩЕЮ, ТУШАЩЕЕ, ТУШАЩИЕ, ТУШАЩИХ, ТУШАЩИМИ, ТУШИВШИЙ, ТУШИВШЕГО, ТУШИВШЕМУ, ТУШИВШИМ, ТУШИВШЕМ, ТУШИВШАЯ, ТУШИВШЕЙ, ТУШИВШУЮ, ТУШИВШЕЮ, ТУШИВШЕЕ, ТУШИВШИЕ, ТУШИВШИХ, ТУШИВШИМИ, ТУШИМЫЙ, ТУШИМОГО, ТУШИМОМУ, ТУШИМЫМ, ТУШИМОМ, ТУШИМАЯ, ТУШИМОЙ, ТУШИМУЮ, ТУШИМОЮ, ТУШИМА, ТУШИМОЕ, ТУШИМО, ТУШИМЫЕ, ТУШИМЫХ, ТУШИМЫМИ, ТУШИМЫ, ТУШЕННЫЙ, ТУШЕННОГО, ТУШЕННОМУ, ТУШЕННЫМ, ТУШЕННОМ, ТУШЕН, ТУШЕННАЯ, ТУШЕННОЙ, ТУШЕННУЮ, ТУШЕННОЮ, ТУШЕНА, ТУШЕННОЕ, ТУШЕНО, ТУШЕННЫЕ, ТУШЕННЫХ, ТУШЕННЫМИ, ТУШЕНЫ, ТУШ, ТУШЕМ, ТУШЕ, ТУШЕЮ

И на последок убойный пример (не мой, тут на серче чел приводил):
Слово "ДЕНЬ" - какая часть речи?
А вот и ни разу не существительное!
А цельный глагол. Повелительное наклонение от глагола "девать".

pseudo_root: ДЕ Д base form = ДЕТЬ, ДЕНЬ

all forms = ДЕТЬ, ДЕЛ, ДЕЛА, ДЕЛО, ДЕЛИ, ДЕНУ, ДЕНЕМ, ДЕНЕШЬ, ДЕНЕТЕ, ДЕНЕТ, ДЕНУТ, ДЕВ, ДЕВШИ, ДЕНЕМТЕ, ДЕНЬ, ДЕНЬТЕ, ДЕВШИЙ, ДЕВШЕГО, ДЕВШЕМУ, ДЕВШИМ, ДЕВШЕМ, ДЕВШАЯ, ДЕВШЕЙ, ДЕВШУЮ, ДЕВШЕЮ, ДЕВШЕЕ, ДЕВШИЕ, ДЕВШИХ, ДЕВШИМИ, ДЕТЫЙ, ДЕТОГО, ДЕТОМУ, ДЕТЫМ, ДЕТОМ, ДЕТ, ДЕТАЯ, ДЕТОЙ, ДЕТУЮ, ДЕТОЮ, ДЕТА, ДЕТОЕ, ДЕТО, ДЕТЫЕ, ДЕТЫХ, ДЕТЫМИ, ДЕТЫ, ДНЯ, ДНЮ, ДНЕМ, ДНЕ, ДНИ, ДНЕЙ, ДНЯМ, ДНЯМИ, ДНЯХ

Туши свет.☝

С чего вдруг? 🚬

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
Olegator555
На сайте с 21.09.2005
Offline
89
#32

есть подозрение, что если бы яша действительно определял сотематичность по связке донор-акцептор по текстовой составляющей, то мы бы знали это и без эксперимента с результатом на тице, т.к. первое на чем бы это отразилось - это выдача - и она была бы совсем другая :) Пока у него нет таких ресурсов, чтобы делать это качественно, имхо...

мне кажется, что зря потратите время, хотя отрицательный результат - тоже результат :)

Но раз уж будете проводить такой экперимент, то можно было бы сделать его к примеру по одному анкор листу, чтобы заодно на результаты по выдаче посмотреть - тем более что лишнего времени это не отнимет :)

di_max
На сайте с 27.12.2006
Offline
262
#33
sokol_jack:
С чего вдруг? 🚬

Чёт я не врубился для чего приведен ряд морфем, да еще и не полный...🙄

А тушить придется.

- Вот как из этих "туши" (как пример) будешь составлять ряды синонимов?

Что бы "мясная" не стала синонимом к "розовой", а "фиолетовая" не тушила бы пожар?;)

Или на примере "досок", что был ранее...

И еще... Все же рекомендую проанализировать то, что упомянуто в этом топике

// Все наши проблемы от нашего не знания...
SJ
На сайте с 16.03.2008
Offline
78
#34
di_max:
Чёт я не врубился для чего приведен ряд морфем, да еще и не полный...🙄

К тому, что проблем вида

с беглой Ё и О - берёг>берегла; любовь>любви(д.п.); церковь>церквей(мн,р.п.) и тп.
не вижу - pseudo_root и base_form у них одинаковые (или пересекаются). Так что приведение всех слов к "базовому" виду поможет :)
А тушить придется.
- Вот как из этих "туши" (как пример) будешь составлять ряды синонимов?
Что бы "мясная" не стала синонимом к "розовой", а "фиолетовая" не тушила бы пожар?;)

Лучше всего - пример предложения(ий), где подобное может случится.

Или на примере "досок", что был ранее...

А что с досками не так? 😕

И еще... Все же рекомендую проанализировать то, что упомянуто в этом топике

Думаете, стоит списаться с Яндексом и попросить результаты их трудов? "Так мол и так, возможности посадить 100 низкооплачиваемых рабочих для уточнения контекстно-смыслового значения слов (омонимов) в тексте сейчас нет, поделитесь результатами, плиз"? :)

sokol_jack добавил 28.01.2009 в 11:08

Olegator555:
есть подозрение, что если бы яша действительно определял сотематичность по связке донор-акцептор по текстовой составляющей, то мы бы знали это и без эксперимента с результатом на тице, т.к. первое на чем бы это отразилось - это выдача - и она была бы совсем другая :) Пока у него нет таких ресурсов, чтобы делать это качественно, имхо...
мне кажется, что зря потратите время, хотя отрицательный результат - тоже результат :)
Но раз уж будете проводить такой экперимент, то можно было бы сделать его к примеру по одному анкор листу, чтобы заодно на результаты по выдаче посмотреть - тем более что лишнего времени это не отнимет :)

Ну, вот для выдачи тематичность не уверен что влияет сильно... Скорее просто текстовая составляющая страницы-акцептора, "вес" страницы-донора + коэф. "хорошести" донора и акцептора. Хотя возможно, эта "хорошесть" и зависит от совпадения тематики. Вобщем, все сложно опять :)

А насчет одинакового анкор-листа - да, часть экспериментальных сайтов точно будет с одинаковым.

di_max
На сайте с 27.12.2006
Offline
262
#35
sokol_jack:
Лучше всего - пример предложения(ий), где подобное может случится.

1. "Черные туши. Они были кругом. Прерию покрывали сотни трупов бизонов"

А'ля Фенимор Купер от меня.

2. "Черные туши. Это прогары. Через них вот-вот равнется паламя. Голос его был наудивление спокойный. "

А'ля Вл. Санини от того же афтара.

3. А привести пример про краски - это я оставлю Вам.;)

Приведение к нормальной форме - это хоршо. Кто спорит.

Но для меня вопрос - как там дела обстоят с исключениями из Правил. А таких слов в Русском предостаточно.

А про доски - логические пары и связки я приводил в том же посте.;)

И вариации транслитерации с аглицкого на русский - тоже вешь призабавная.

Остров: Самуи или Самуй? Отдых где: - на Самуи, на Самуй, на Самуях.

И с ростом кол-ва и какбэ как_чества копирайтинга - все эти проблемы становятся более острыми.

SJ
На сайте с 16.03.2008
Offline
78
#36
di_max:
1. "Черные туши. Они были кругом. Прерию покрывали сотни трупов бизонов"

[ЧЕРНЫЙ, ГРЯЗНЫЙ, НЕЧИСТЫЙ, ЧЕРНОМАЗЫЙ, ТЕМНЫЙ, ЧУМАЗЫЙ] [ТУШЬ, ТУШИТЬ, ТУШ, ТУША, ТРУП, ЧЕРНИЛО]. ОНИ [БЫЛЬ, БЫТЬ] [КРУГОМ, КРУГ, ВОКРУГ, ВЕЗДЕ, ПОВСЮДУ]...

2. "Черные туши. Это прогары. Через них вот-вот равнется паламя. Голос его был наудивление спокойны. "

[ЧЕРНЫЙ, ГРЯЗНЫЙ, НЕЧИСТЫЙ, ЧЕРНОМАЗЫЙ, ТЕМНЫЙ, ЧУМАЗЫЙ] [ТУШЬ, ТУШИТЬ, ТУШ, ТУША, ТРУП, ЧЕРНИЛО]. ЭТО [ПРОГАР, ПРОВАЛ]...

Ну, в этой части несомненно похожи :)

Но если еще учитывать длинну всего текста (что вобщем-то правильно), то вот чем дальше, тем меньше совпадений.

Но для меня вопрос - как там дела обстоят с исключениями из Правил. А таких слов в Русском предостаточно.

Да уж. Что думаете про использование статистики встречаемости "рядом" слов для отсеивания "неподходящих по смыслу" синонимов?

А про доски - логические пары и связки я приврдил в том же посте.;)

Да, доски не рулят. :) Посмотрим, что по этому поводу думают тезаурусы.

Dweep
На сайте с 11.12.2006
Offline
207
#37
sokol_jack:

- тематика Яндексом сайту целиком не присваивается
- тематичность присваивается связке "страница-донор - страница-акцептор"

Я это предствляю так:

Тематика сайту действительно в явном(понятном для человека) виде не присваивается.

Тематичность присваивается связке "сайт-донор - сайт-акцептор", что выражается в числовой величине из интервала [0, 1] (0 - сайты на совсем на разные тематики, 1 - сайты очень-очень-очень тематичны).

Также я представляю чуть ли не как аксиому факт(который не раз проверял, и не смог опровергнуть) если с сайта А на сайт В стоит проиндексированная ссылка, то при постановке с сайта А на сайт В еще ссылок дополнительного ИЦ-а(кроме того,что передает первая ссылка) не предастся. Поэтому абсолютно все равно ссылка стоит с морды, или со страницы 5-го уровня, или это вообще сквозняк со всех страниц.

Идею привязаться к тексту конкретно взятых двух страниц сайтов считаю бредовой, нужно оценивать сайты в целом. Может у вас и получится найти закономерность, но только за счет того, что страницы сайта часто тематичны самому сайту в целом. Кстати, можете оценивать не связку "страница-донор - страница-акцептор", а связку "страница морда донора - страница морда акцептора", больше толку будет.

Если интересно, можете глянуть мою теорию передачи ИЦ

SJ
На сайте с 16.03.2008
Offline
78
#38
Dweep:
Я это предствляю так:
Тематика сайту действительно в явном(понятном для человека) виде не присваивается.
Тематичность присваивается связке "сайт-донор - сайт-акцептор", что выражается в числовой величине из интервала [0, 1] (0 - сайты на совсем на разные тематики, 1 - сайты очень-очень-очень тематичны).

Хм. А как быть с теми сайтами, у которых тематика немного "размыта"?

Да и грубо говоря берем любой сайт в качестве примера (беру свой СДЛ) - есть раздел "Психология", есть раздел "Здоровье детей", есть раздел "Отдыхаем в выходной". Тематика каждого из разделов "немного" отличается, ИМХО. И насколько тематичным будет считатся сайт например магазина детских товаров? Почему?

Также я представляю чуть ли не как аксиому факт(который не раз проверял, и не смог опровергнуть) если с сайта А на сайт В стоит проиндексированная ссылка, то при постановке с сайта А на сайт В еще ссылок дополнительного ИЦ-а(кроме того,что передает первая ссылка) не предастся. Поэтому абсолютно все равно ссылка стоит с морды, или со страницы 5-го уровня, или это вообще сквозняк со всех страниц.

А почему именно первая ссылка? А если она "мигнула"?

По-хорошему, надо брать сайт, размещать на него 1000 ссылок по 2-3 на каждый сайт (морда, 2-3ув, просто "хорошая" страница) и потом снимать периодически один "тип" ссылок и смотреть на результат. Вот только параметры доноров еще меняются со временем, и результат может очень сильно зависеть от этого. Так что надо брать 1000 сайтов :)

Идею привязаться к тексту конкретно взятых двух страниц сайтов считаю бредовой, нужно оценивать сайты в целом. Может у вас и получится найти закономерность, но только за счет того, что страницы сайта часто тематичны самому сайту в целом. Кстати, можете оценивать не связку "страница-донор - страница-акцептор", а связку "страница морда донора - страница морда акцептора", больше толку будет.

Ну, знаете... Уж что-что, а "морда" зачастую это просто "Новые поступления:....".

Посмотрел. Свойства коэф. b - не согласен. Свойства коэф. s - тут я так понимаю вобще не важно, сколько у меня страниц на сайте 😮 - что с одной 200 ссылок, что с 200к - всего 200 ссылок, а "s(200) = 0.9 (если с сайта - донора двести ссылок, то s=0.9)"?

Ну, и как вы прокоментируете в рамках своей теории несколько моих сайтов, которые за этот ап получили от 100 ТИЦ? Никаких дырок Яндекса, ковровых бомбардировок и прочего не использовалось. 90% доноров - 0 ТИЦ, куча внешних. Это не "тема" matr, о которой он писал (за его сайтом наблюдаю не первый месяц, кстати ;) ).

di_max
На сайте с 27.12.2006
Offline
262
#39
sokol_jack:

Да уж. Что думаете про использование статистики встречаемости "рядом" слов для отсеивания "неподходящих по смыслу" синонимов?
Да, доски не рулят. :) Посмотрим, что по этому поводу думают тезаурусы.

Не думаю, что эксперимент на уровне "идеального газа" или "черного ящика" тут уместен.

Испытания должны быть приближены к боевым.;)

А что думают на это афра_хопируйтеры?:)

А вот это - факт. С которым нельзя не считаться, примеряя что-либо на алгоритмы Яндекса.

Ему же приходится пережовывать всю эту кучу г...текстов.

Более серьезный пример реальных пар:

Греция - Санторини;

Италия - Рим;

Италия - Ватикан;

Италия - Сицилия;

Египет - Красное море;

Египет - пирамиды;

Египет - Сфинкс;

Египет - пирамиды+Сфинкс;

SJ
На сайте с 16.03.2008
Offline
78
#40
di_max:
Более серьезный пример реальных пар:
Греция - Санторини;
Италия - Рим;
Италия - Ватикан;
Италия - Сицилия;
Египет - Красное море;
Египет - пирамиды;
Египет - Сфинкс;
Египет - пирамиды+Сфинкс;

Хм. Так что, мне прийдется собирать статистику по встречаемости "связок" слов по огромной базе страниц? Тогда получится через всякие Хеопс, Сфинкс выходить на Египет и пирамиды...

Но я повешусь :) Точнее, не я, а мой инет-канал (все 30мбит). Да и винт новый прийдется покупать...

Вы бы уже не палки в колеса ставили (достаточно уже 😂), а что-то полезное-полезное посоветовали.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий