Синонимайзеры и закон ципфа.

G00DMAN
На сайте с 19.04.2008
Offline
122
#11

webpavilion, на сайте РОМИП это подробно описано:

Процедура получения коллекций

Коллекции предоставляются оргкомитетом по запросу.
Процедура следующая:
  • прислать заявку в оргкомитет, указав, какие коллекции вас интересуют и для проведения каких исследований. Укажите также, как вам удобнее получить колекции (через контактное лицо, по почте, по ftp (если размер коллекции позволяет));
  • подписать соглашение об использовании данных;
  • подписать дополнительные соглашения с владельцами коллекций, если необходимо;
  • договориться о встрече с контакным лицом в Москве или Санкт-Петербурге, если это возможно; либо послать по почте соглашение об использовании по адресу, указанному оргкомитетом.


Данные предоставляются бесплатно, необходимо компенсировать затраты на носители и доставку.

Заявки принимаются по адресу: romip[AT]romip.ru
Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
Seo2z
На сайте с 27.11.2008
Offline
130
#12
я пытаюсь реализовать все факторы определения неестественных текстов в коде (в корыстных целях конечно же)

не так давно G00DMAN упомянул о стиле написания контента. Один автор разных статей на одном сайте - круче чем разные авторы. Быть может от части правда, но годится не во всех тематиках. К понятию "неестественных" применить можно, при желании.

G00DMAN, что можете сказать по поводу такого фактора?

G00DMAN
На сайте с 19.04.2008
Offline
122
#13
Seo2z:
G00DMAN, что можете сказать по поводу такого фактора?

Я могу сказать следующее. Если на Вашем сайте есть куча не подписанных статей одного автора, то скорее всего не стоит надеяться на то, что их как-то пофиксят, как "стиль статей на конкретном сайте". Пока такое сомнительно ввиду большой ресурсоемкости. Яндекс пытается определять авторство, у него есть и методики определения стиля. Может он эти методики и применяет. Но, т.к. определение стиля в рамках методик не известно, то заморачиваться этим вообще не нужно. Лучше пока забыть. :)

Seo2z
На сайте с 27.11.2008
Offline
130
#14
Я могу сказать следующее. Если на Вашем сайте есть куча не подписанных статей одного автора, то скорее всего не стоит надеяться на то, что их как-то пофиксят, как "стиль статей на конкретном сайте". Пока такое сомнительно ввиду большой ресурсоемкости. Яндекс пытается определять авторство, у него есть и методики определения стиля. Может он эти методики и применяет. Но, т.к. определение стиля в рамках методик не известно, то заморачиваться этим вообще не нужно. Лучше пока забыть.

тут спора нет, пока нет инфы, копать не стоит. Теоретический вопрос: если бы стоило копать, то каким был бы примерный алгоритм? Не совсем понятно присвоение стиля тексту. На частотном, комбинационном уровне употребления слов, на семантике предложений? Как бы реализовывалось в рамках разных тематик контента одного автора? Или применимо только к одной тематике и одному автору?

G00DMAN
На сайте с 19.04.2008
Offline
122
#15

Seo2z, там может быть куча вариантов. Проще пока забить на это. :)

S
На сайте с 29.01.2006
Offline
404
#16

Seo2z, вот вам Википедия - http://ru.wikipedia.org/wiki/%D0%90%D0%B2%D1%82%D0%BE%D1%80%D0%BE%D0%B2%D0%B5%D0%B4%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%8D%D0%BA%D1%81%D0%BF%D0%B5%D1%80%D1%82%D0%B8%D0%B7%D0%B0

И ещё Гугл по фразе "способы определения авторства".

vitali_y
На сайте с 23.05.2007
Offline
33
#17

влезу и я в дискуссию...

G00DMAN,

G00DMAN:

Что не говорит о том, что в Яндексе он не используется. Ципфа можно использовать, как один из факторов естественности. Если у документа много отрицательных факторов, то его считают спамным. Вполне рабочий вариант.

тут есть "знатоки Яндекса"... может есть сами Яндекса писатели?

или может кто мне дать нормальное разумное объяснение как с помощью синонимизации можно захламить поисковую выдачу?

т.е. сослаться на определенную математическую модель стоящую за поиском (к примеру Яндексова) и привести пример - вот в таком случае при таком запросе будет в топе.

т.е. если при поиске жилья на запрос "логово для девочек" яндек будет искать "комната для девочек"...

vitali_y добавил 08.11.2010 в 19:32

webpavilion, ну как вы будете получать таким образом эти "коллекции"?

народ может у кого есть эти офигительно ценные "коллекции"?

организуйте уж утечку - посмотрим все вместе - чего там столь ценного...

vitali_y добавил 08.11.2010 в 19:34

могу предположить кстати как организовать утечку юридически не преследуемым образом...

правда ценность этого хлама сомнительная.

_S_
На сайте с 12.01.2006
Offline
109
_S_
#18
федя-крюгер:
так вот все дело в том, как их сравнивать.

Вариантов масса, когда у ПС есть инверсный файл со всеми словопозициями и тд. :)

Читаешь блог? () Сайт о холодном оружии (http://bladeist.ru)
vitali_y
На сайте с 23.05.2007
Offline
33
#19

а имея словопозиции - сколько суперпозиций можно получить!

vitali_y добавил 09.11.2010 в 14:59

webpavilion:

Что еще подчиняется закону Ципфа?

* 80% предложений состоит из 20% слов
* 80% работы выполняют 20% сотрудников
* 80% научных публикаций пишут 20% ученых
* 80% профильной информации находится в 20% источников
* 80% материальных ценностей принадлежит 20% населения
* 80% времени процессора занимают 20% инструкций(команд)
* 80% населения сосредоточено в 20% городов
* 80% общего объема продаж дают 20% ассортимента
* 80% прибыли дают 20% покупателей
* 80% преступлений совершают 20% преступников
* 80% ДТП произошли по вине 20% водителей
* 80% разводов на совести 20% вступивших в брак
* 80% времени вы носите 20% имеющейся у вас одежды

продолжать можно до бесконечности...

выведу и я свой закон :) даже не так я выведу ряд законов используя закон МАТЕМАТИЧЕСКОЙ ИНДУКЦИИ (что это такое посмотрите в ЛИТЕРАТУРЕ)

1)

* 50% предложений состоит из 50% слов

* 50% работы выполняют 50% сотрудников

* 50% научных публикаций пишут 50% ученых

* 50% профильной информации находится в 50% источников

* 50% материальных ценностей принадлежит 50% населения

* 50% времени процессора занимают 50% инструкций(команд)

* 50% населения сосредоточено в 50% городов

* 50% общего объема продаж дают 50% ассортимента

* 50% прибыли дают 50% покупателей

* 50% преступлений совершают 50% преступников

* 50% ДТП произошли по вине 50% водителей

* 50% разводов на совести 50% вступивших в брак

* 50% времени вы носите 50% имеющейся у вас одежды

* 40% предложений состоит из 40% слов

* 40% работы выполняют 40% сотрудников

* 40% научных публикаций пишут 40% ученых

* 40% профильной информации находится в 40% источников

* 40% материальных ценностей принадлежит 40% населения

* 40% времени процессора занимают 40% инструкций(команд)

* 40% населения сосредоточено в 40% городов

* 40% общего объема продаж дают 40% ассортимента

* 40% прибыли дают 40% покупателей

* 40% преступлений совершают 40% преступников

* 40% ДТП произошли по вине 40% водителей

* 40% разводов на совести 40% вступивших в брак

* 40% времени вы носите 40% имеющейся у вас одежды

т.о. закон 1: пусть x % чего то что произошло то причина этого x %

2)

* 40% предложений состоит из 60% слов

* 40% работы выполняют 60% сотрудников

* 40% научных публикаций пишут 60% ученых

* 40% профильной информации находится в 60% источников

* 40% материальных ценностей принадлежит 60% населения

* 40% времени процессора занимают 60% инструкций(команд)

* 40% населения сосредоточено в 60% городов

* 40% общего объема продаж дают 60% ассортимента

* 40% прибыли дают 60% покупателей

* 40% преступлений совершают 60% преступников

* 40% ДТП произошли по вине 60% водителей

* 40% разводов на совести 60% вступивших в брак

* 40% времени вы носите 60% имеющейся у вас одежды

т.о. закон 2: пусть x % чего то что произошло то причина этого 100-x %

vitali_y добавил 09.11.2010 в 15:37

3)

* 40% предложений состоит из 70% слов

* 40% работы выполняют 70% сотрудников

* 40% научных публикаций пишут 70% ученых

* 40% профильной информации находится в 70% источников

* 40% материальных ценностей принадлежит 70% населения

* 40% времени процессора занимают 70% инструкций(команд)

* 40% населения сосредоточено в 70% городов

* 40% общего объема продаж дают 70% ассортимента

* 40% прибыли дают 70% покупателей

* 40% преступлений совершают 70% преступников

* 40% ДТП произошли по вине 70% водителей

* 40% разводов на совести 70% вступивших в брак

* 40% времени вы носите 70% имеющейся у вас одежды

т.о. закон 3: пусть x % чего то что произошло то причина этого y %

закон 1 и закон 2 можно рассматривать как следствие закона 3.

Stripe
На сайте с 05.09.2006
Offline
222
#20

80% на 20% это все-таки Парето, а не Ципф, сохраняйте копирайты ))

Сайты от 30р почти по любой теме или наполнение ваших сайтов (/ru/forum/887821) дешевым контентом. Базы товаров и контента (http://nakovalnja.ru). Вечные ссылки за 1$ или 30р. (/ru/forum/741397)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий