john2007

john2007
Рейтинг
173
Регистрация
26.03.2007
Videoson:

а имена собственные - туфта на самом деле...

На самом деле, не такая простая задача. Если говорить про имена и фамилии, например, не забывая, что они не толко русские бывают.

Как определить какого рода?

Как определить склоняется или нет?

База имен собственных нужна.

Или корпус русского языка, желательно постоянно пополняемый новостями.

Вообще, корпус от многих проблем спасает. Опять же, с учетом того, что сервис делать, а не программный оффлайновый продукт, проблема больших объемов особенно не волнует 🚬

Это будет очень грубо, реальной картины не даст. Да и сравнительная интерпретация PR и тИЦ затруднительна. Т.е., например, во сколько точно PR5 больше PR4? Кроме того, я думаю, что PR5, например, это и PR4.5 и PR5.4, а разница между значениями в несколько раз, думаю.

Например средний PR и тИЦ топа по "пластиковые окна" и "грузоперевозки" примерно равен - PR5, тИЦ500.

Но в реальности, думаю разница в конкурентности между "пластиковые окна" и "грузоперевозки" раза в три.

peoplelife:
Например запросов по слову "Дрочить" (ВЧ) больше в тысячи раз чем по сочетанию "Купить личный самолет" (НЧ) , однако конкуренция по второму запросу в десятки раз выше, потому что от одной продажи самолета можно заработать больше чем от продажи фантиков дрочилам в течении тысячи лет.

Вы, безусловно, очень разбирающийся в частотности и конкурентности, но видимо не единственный, мне, например, это тоже безусловно понятно, поэтому объяснять это смысла не было.

Прочитайте внимательно весь топик, может будет понятно о чем речь. Если прочитали и не поняли, то что же тут поделать. Если прочитали и поняли и Ваша оценка - маразм - это Ваше мнение, но я маразма здесь не вижу. Вижу или удачное определение НЧ, СЧ, ВЧ или не удачное. Есть результаты опроса - 30% поддерживают как конкурентность, 70% не поддерживают, а за классическое определение, как частотности.

Однако 30% меня поддерживают, и что-то мне подсказывает, что это в СЕО не новички, потому как, ИМХО, для новичка проще для понимания НЧ, как низкочастотный.

Задумка не плохая.

Но, что бы реализовать более менее приличный синонимайзер, ИМХО, требуется не месяцы, а годы упорной работы, еще желательно силами команды.

Вот список проблем Вашего прототипа, которые я вижу на вскидку:

1) Для задач синонимайзера у Вас не база синонимов, а сплошной мусор.

Собственно говоря, база Lingvo базируется на словаре ASIS(r), Тришина, которая тоже для таких задач - сборник мусора.

На данный момент подходящих словарей синонимов просто нет, ни в электронном ни в печатном виде.

Даже в самых лучших словарях указанные слова не являются 100% синонимами, а синонимами, так сказать в зависимости от контекста.

Т.е. в определенном контексте их можно использовать, а в определенном нет. И процент семантических ошибок будет даже не 10% :)

Например, для "быстрый", синонимы - "беглый", "скорый". И получится, например, из "быстрого бегуна" "беглый бегун" :)

2) Помимо базы синонимов у Вас должна быть база фразеологизмов (идиом, устоявшихся выражений), что бы Вы не начали синонимизировать "железная дорога", например.

И не получили в результате "стальная дорога", например.

Кроме того, нужна база всяких пословиц, крылатых фраз и т.д.

3) Проблемы с малым количеством 100% синонимов побуждают расширять их количество за счет синонимичных глаголов, в частности.

Это в свою очередь (впрочем, как и без этого, Вы и без глаголов, как я вижу, с этим столкнулись) влечет необходимость синтаксического разбора.

Морфологический и синтаксический разборы, кроме, собственно говоря, трудозатрат на реализацию несут множество проблем - морфологическая и синтаксическая омонимия, проблемы с именами собственными и т.д.

Еще одна проблема - запятые, без которых правильный синтаксический разбор затруднителен. А кто же Вам в исходных текстах правильную расстановку запятых предоставит.

Ну, и конечно, зарабатывать на этом нужно не 10 000$ в год, выпуская программный продукт, а сотни тысяч долларов, организовывая сервис постатейного перевода, с оплатой 1$ за 2500 знаков, например.

А, учтя еще и семантические связи, можно на выходе получить уже рерайтер. Задача в разы сложнее, но и дохода дающая в разы больше.

Идея заманчивая, и для умных людей вполне реализуемая, правда, как я уже говорил, не в очень короткие сроки.

Я бы и сам, думаю, с успехом, в этом поучаствовал и на уровне организации и на уровне реализации, но проект, так сказать, сильно венчурный.

Я и на более простые вещи, как-то не решаюсь :)

А Вам удачи, на этом не легком пути!

new-georg:
Вся путаница была из за того что в коде страницы внешний вид ссылок с другими знаками. Теперь все ясно 🚬 Теперь буду разбираться с открывшимися возможностями. Попробую в письмах это применить. Может получится. :)

В каких письмах? 😕

alut:
john2007,
Ведь при оценке конкурентности мы пользуемся показателями частотности в том числе :)

ИМХО, если оптимизатор берется за оптимизацию запроса на заказ, то его частотность волнует в самую последнюю очередь, если вообще волнует :)

Первым делом он идет в топ и смотрит беки потенциальных конкурентов, т.е. конкурентность, а на частотность запроса, думаю, что большинство если и смотрит, то из любопытства, да в некоторых случаях, для формирования цены.

Разработчик:
john2007, как можно называть что-то - дело десятое, но всё-таки правильно НЧ - низкочастотный, чтобы не вносить путаницы ;)
albion:
В данном случае - это не трансформация, это подмена понятий.
Слово низкочастотный составлен из 2 слов: низкий и частотный.
Низкий - не поменял значение
Частотный - не поменял значение
Так почему же, низкочастотный запрос стал синонимом низкоконкурентного запроса?
di_max:
Согласен. Путаницы с "трафиком" разве мало?
serg mossine:
albion, Против подмены понятий возражений нет :-)

Ладно, ладно, убедили, пусть частотность правильнее :)

Просто тогда для меня НЧ, СЧ, ВЧ, как одни из основополагающих понятий в СЕО теряют всякий смысл...

А получается, что употребляются они практически всегда (за редким исключением) не по делу.

И всякий раз когда кто-то будет спрашивать - "А как продвигать ВЧ?" я буду писать - если у Вас нет конкуренции, то можно и внутренними факторами, а если есть, то ссылочным :)

А когда будут спрашивать "А как продвигать НЧ?", то я буду писать, если у Вас сильная конкуренция по НЧ, то продвигать нужно ссылочным, а если нет конкуренции, то можно и внутренними :)

Неудобная общеупотребительная терминология слегка...

Разработчик:
john2007, мда, завернул..Вы тут правильность построения предложений обсуждаете?

Не одно и то же? :)

И я про то же, что НЧ - это ИМХО низкоконкурентный, но как видно из опроса, в большинстве своем, общественность со мной не согласна :)

albion:
Для этой фразы - плохой пример. Вот хороший пример: низкоколорийный - означает, что мало калорий в продукте, а не то что он вкусный или нет.

Возможно Ваш пример тоже годится, но разве мой пример не о трансформации значения слова?

albion:

ИМХО. Частотность запроса очень сильно нравиться заказчикам. Вот оптимизаторы и втирают им про частотность, да и сами не заметив того, стали в кругу колег употреблять постоянно это вырожение. Да и в основном, как я заметил эти термины употребляют именно новички.

Возможно, так как этимология этого слова идет именно от частотности и многие еще не перестроились, но некоторые уже да. Но, ИМХО, среди новичков больший процент под НЧ, СЧ, ВЧ понимают частотность, чем среди опытных оптимизаторов, так как такое определение понятнее, не понимая, что в СЕО частотность играет много меньшую роль чем конкурентность и о частотности часто большого смысла говорить нет.

И кстати, не даром, как только задается вопрос что такое НЧ, СЧ, ВЧ (в смысле цифр) - ответ дать, как правило, никто не берется, начинаются расплывчатые ответы, что у каждой тематики свои ВЧ и т.д.

Вопрос - зачем термины определения которым нет?

ИМХО, НЧ - это аббривиатура удобнее (знакомее), чем, например, НК.

Потому, почему бы для низкоконкурентного запроса не использовать понятное обозначение НЧ?

НЧ (в смысле низкой конкуренции) определить проще (чем в смысле частотности), например, НЧ - запрос в котором для выхода в ТОП 10 достаточно внутренней оптимизации.

Dm,

ТС и Тимон это же одно и тоже :)

Всего: 2535