bimcom

Рейтинг
170
Регистрация
23.10.2006

То есть ваша гениальная идея уперлась в туже проблему что и все синонимайзеры - в базу синонимов, а как все начиналось....

Даю наводку подходящие синонимы для той или иной пары слов сама поисковая система может дать. (покрайне мере так у меня было)

Dzhem:

У самого изначально была мысль нанять человека который будет синонимы добавлять. Но это нереально. бюджет уходит в миллионы рублей.

Какой же квалификации должен быть этот человек 😮 😕

Dzhem:
Спасибо. Рад любым дополнениям, замечаниям. Думаю завтра к вечеру можно будет тестировать проект, правда с поганой базой,

У меня такое чувство что завтра вы только поймете с чем связались :) Русский язык он могуч.

Dzhem:

там уж кому проект интересен, надеюсь помогут составить идеальную базу

А вот этого не советовал бы - засрут все.

Dzhem:
Ввели вы к примеру слово магазин ключевиком. захотели чтоб оно отображалось 7 раз. 2 рза в тексте встречается слово магазин. скрипт его менять не будет. он добавит еще 5 раз магазин, причем в разных падежах и склонениях и вставит в нужные места, и при этом текст будет читабельным.

Если такое удастся дорвейщики вас на руках носить будут :) ток заложите в алгоритме возможность указания ключевиком фразы из нескольких слов.

Буду пристально следить за вашей темой.

FANTiK123:
если я правильно понял, то сколько введешь ключевиков, столько и произойдет замен, значит на текст их 200 слов, надо как минимум 50 ключевиков вбивать
ждем первых результатов....

С таким подходом лучше 200 слов синонимизировать по старинке :) - рерайтом.

Linyli:
А яндекс не банит за такие дела? Насколько я знаю, к яндекс.xml можно за сутки не больше 1000 запросов посылать, если не на договорной основе.

VPS с сотней - другой IP адресов решает эту проблему элементарно.

Dzhem:
зачем выявлять падежи и времена и потом обращаться к другим системам если можно обратиться а потом все это выявить? - это раз
далее программа словосочетания сам не будет составлять. зачем. это глупо. 5к на 50к умножать ненадо. эти результаты нам выдадут те же гугл и яша - это два.

Я поделился опытом по наступанию на грабли, но как вы на них будите наступать никому не известно.

Dzhem:
Далее парсер проходит по этой базе, просто сам по себе, время от времени, парсит яшу, гугл, ищет словосочетания. С НЧ ключами все нормально, не волнуйтесь, тоже все обдумал.

Вы с начала прикиньте:

количество слов в русском языке

250 000 - 300 000

пусть ваш парсер будет обрабатывать всего 50 000 слов, тоесть 50кХ50к парных словосочетаний (запариваться с тем что не все слова образуют пары не будем - т.к. и так базу сузили)

теперь учитываем что у каждого слова может быть 6 падежей и 3 времени, падежи срезаем в 2 раза до 3х, время трогать нельзя, итого имеем для пар

50000x3х3х50000х3х3=202 500 000 000 запросов придется сделать только к одной поисковой системе, можно конешно это все делать на библиотеке Мошкова или аналогах, но базка получится литературная, а не интернетная.

Дело в том что сам делал такой велосипед, он получился, но парсер работал в реальном времени, не накапливая базу, в итоге на синонимайз 2000 символов уходдило порядка 2-5 тысяч запросов к яндексу (много ступеней проверки человечности написанного было), но все равно всплывали иногда косяки с морфологией в местах стыка (пока разработку отложил)

Чета ваша гениальная идея уж очень похожа на идею "под каждую тему материала своя база синонимов" только тематику вы предлагаете заменить ключевиками, которые ещё и самим нужно придумывать, да ещё и к яндексу с запросами ломиться, это все класно выглядит на коротких текстах, а вот на длинных, х..ня получится.

PS.

Чтобы небыло дискуссий дайте результаты инструмента посматреть, если они будут на высоте, то интерес будет.

Alexey Levin:

Проблема еще в том, что большинство юзеров смотрят на дисковое пространство и цену - остальное уже не так важно для них.
Я неоднократно про это писал. Проблема рынка хостинга, заключается в том, что клиенты судят о услугах скорее по обложке, а многие хостеры вынуждены подстраиваться под спрос, под некомпетентность среднего клиента ради того, чтобы наращивать бизнес.

Совершенно верно!

Вот и нужно объяснять и изменять мир хостинга наконец то.

Только вот проблема с

Alexey Levin:
Если взять цену на SAS диски, то 100 рублей за гиг - дешевле себестоимости будет

Есть тяжелый сайт размером 2000ГБ, на мирхотинге он поместится только за $18 а у приведенного мной хостера свободно сидит на 10ГБ и 300р в месяц + остается ещё и много других ресурсов.

Такчто ждем изменения мира хостинга.

PS.

только что увидил лимиты трафика - это уже ппц..

MIRhosting.com:
В рабочее время обычно есть свободные операторы в чате отдела продаж.

Сообщение я писал в 15-00, укажите тогда в каком часовом поясе вы работаете.

MIRhosting.com:

Касательно цен - я могу Вас попросить написать, что для Вас "оочень высокие расценки" и какие предложения Вы бы считали не высокими?

Цены в России на хостинг в принципе у всех игроков грабительские, но даже сравнивая их (все смысла нет, сравню тех на ком свой выбор остановил)............подумал и решил что лучше этого не делать:

- это ваш топик

- сравнить адекватно я не смагу, как оказалось все однозначно сравнить не получится - отличия в стоимости при разных сроках сравнения, отличие количества БД, парковочных сайтов, места под сайты, бд, вашу техподдержку у меня возможности проверить нет.......

так что сравните сами (в личку отправил)

Всего: 795