G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008

HapKOTuK, написать какой-нибудь классификатор - дело не хитрое, написать хороший классификатор - намного сложнее, потому что гораздо больше трудозатраты. Если Вы докажете качество Вашего классификатора - есть шансы кому-то его продать, оптом, или в розницу.

vitali_y:
:) верьте мне на слово, с "навороченными" технологиями я знаком.

У меня есть уверенность, что Ваше знакомство "шапочное".

vitali_y:
задачу ввиде: есть текст A и есть набор текстов {A1, ..., An} определить текст Ax который был получен автоматически из текста A при условии что текст A имеет смысл и Ax сохраняет этот смысл.
я решу легко ввиде программы.

Хыыы... :D

vitali_y:
"спам-технологии" - я смеялсо :) тут столько же технологий как и технологий в молотке для современного механика. замена слов и перестановка абзатцев - это технологии?!
если для вас написать определитель спама - "высокие технологии"...
это достаточно тривиальная задача - уверяю вас - любому думающему человеку умеющему программировать и немного знакомого с математикой и алгоритмами это под силу.
это скорее knowhow... я за правильную терминологию.

Т.е. спам побежден окончательно? Кем же? :D

vitali_y:
ну так яснее задача будет звучать так:
есть текст A и есть набор текстов {A1, ..., An} определить текст Ax из которого был получен автоматически текст A при условии что текст Ax имеет смысл и A сохраняет этот смысл.
алгоритмически задача решается за линейное время относительно n - это, соглашусь, при полной индексации в конечном итоге все-таки потребует значительных ресурсов...
можно подсократить время используя разбиение текстов на классы...
можно подсократить время используя трастовость сайтов...
в общем случае при индексации задача решаема - я не вижу в упор нерешаемой проблеммы.
т.е. по моему в конечном итоге время на скачку страницы будет больше времени затраченного на проверку и на добавление в индекс.

В общем случае задача безусловно не решаема. Более того - при знании текущих антиспамовых алгоритмов грамотному спамеру не составит труда их обойти с помощью значительно меньших ресурсов. Странно, почему такой очевидный факт не доступен Вашему пониманию. :)

Кстати - обратная задача аналогично имеет решение, на любой алгоритм спамера можно написать антиспам. Потому и борьба между ними фактически вечна.

Sim:
Имеют. Ставки выше потому что.

ЗЫ: неправ, похоже. В прогнозе директа так:
  • forex 3.53
  • окна пвх 22.00
  • шкаф купе 2.59

По форексу во время войн первое место в спец.размещении до 50.00 доходит. Причем ни один из участников такого "аукциона" не захотел мне объяснить смысла этой цены. :)

Sim:
В бизнес-модели. Не очень представляю себе владельца оконного бизнеса, который собственноручно двигает сайт. А в форексе - пожалуйста.

На форексе все же рулят продвинутые в компьютерах и интернетах люди, а в окнах - строители. Потому должна быть разница. К тому же среди крупных игроков на рынке валютного дилинга в сео понимает только один из. Остальные разбираются существенно слабее, хотя лучше оконных.

vitali_y:
т.е. если бы я писал поисковик - большой для интернета - я бы эту проблемму решал просто - те страницы что открываются наиболее часто и пользователь задерживается на коих большее время - увеличивал бы их коэффициент релевантности - таким образом весь шлак все равно бы уполз вниз...

Ну так это и делается, только не все так просто, как Вы думаете. :)

webpavilion:
Для продажи ссылок и манипуляции выдачей.

Да, причем текущая ситуация стимулирует веб-заводы выдавать ГС для продажи ссылок сотнями в день.

vitali_y:
Думаю банальная экономия ресурсов.

При желании я мог бы генерить тысячи ГС с синонимизированным контентом автоматизировав процесс до нажатия одной кнопки. Я не жадны и продал свои наработки еще сотне умельцев. Допустим 500 человек по 3000 сайтов по 3000 страниц с 3000 тысячами знаков на каждой. ~12TB мусорного контента в день. сервера для обработки подобного объема информации стоят немалых денег а пользы от полученного результата нет.

Не только в обработке и хранении информации дело. Не контролируемая несколько лет сео-отрасль увеличила ссылочную массу в рунете минимум в три раза, заодно автоматизировав проверку всей этой массы говноссылок на индексацию после каждого апдейта. Сео-запросы забирают до 30% ресурсов Яндекса, кому из яндексоидов это понравится? :)

vitali_y:
это да согласен. но определение такого сайта человеком - пара секунд.
автоматически это тоже делается легко или достаточно легко - я бы смог написать такую программу - без проблем или без больших проблем.

Это Вам так кажется, потому что опыта борьбы с текстовым спамом нет. На самом деле все гораздо сложнее, поисковики применяют достаточно навороченные технологии, но окончательно победить не смогут еще много лет. Те же дорвейщики успешно обходят алгоритмы всех поисковиков, спам-технологии развиваются параллельно с антиспамом. :)

asto:
На сайте ВАКа качните последний перечень реферируемых изданий, учитываемых ВАком. Там есть политематический журнал КубГау (Кубанский государственный аграрный университет), там публикация всего 200 рублей за страницу стоит, публикуют быстро. Я этот перечень на наличие сетевых журналов не проверял, смотрел кубанские только. Может еще есть сетевые реферируемые журналы, в которых задешево можно разместить статью. Самому надо будет пару статей в таких журналах запостить до защиты:)

Спасибо, но я искал че-нить более манерное... :)

boga@voxnet.ru:
Ранг изданий и цитируемость - все, других критериев нет.

Вот я, как припершийся недавно в науку из-за угла, с этим уже столкнулся. Публикации в трудах РОМИП не особо катят, так как у сборников даже ISDN нет. Поэтому сейчас приходится активно договариваться с людьми из ВАКовских журналов. За разумное бабло я вопрос не смог порешать, придется в каждую статью брать лоббистов соавторами. :)

boga@voxnet.ru:
РАН - дикий гадючник. С непрозрачностью процедур, с феодальной системой пахоты на бояр, с откатной системой снабжения, аффилированной с академическим начальством.
Но если где-то что-то осталось, то только там.

Не только. В фундаментальной математике мехмат МГУ всегда был в числе знаковых источников настоящей науки.

boga@voxnet.ru:
Все это надо коренным образом реформировать, но это совершенно не нужно ребятам, которые сейчас рулят.

Не так это просто, кстати. И при жестких реформах сопротивление академического болота будет огромным, со статьями в прессе, передачами на ТВ и прочей желтухой.

_vb_:
Ну а выход то вообще с вашей колокольни виден? Или вообще безнадега полная?

Почему безнадега? Вариант 2 в Вашем посте вполне рулит. Если ученый хочет и может двигать науку - он будет двигать, параллельно озадачиваясь грантами и ИЦ.

_vb_:
А каким образом можно оценить "выхлоп" в фундаментальной науке? И кто будет оценивать?

Формальных критериев для объективной оценки нет. Объективно оценить могут коллеги, но только по-тихому, между собой. Да и то далеко не всегда они объективны. :)

boga@voxnet.ru:
Справедливости ради, надо отметить, что и западная система не идеальна, хотя максимально нацелена на результат. И там аферистам удается убедить грантодателей финансировать именно их. Особенно этим славятся китайцы в США. Но долго это продолжаться не может.
Нет выхлопа - мало шансов получить снова.

Дык дело не в аферистах - большинство дает псевдовыхлоп. Красивый для грантодателя, но беспонтовый, или почти.

_vb_:
Если все таки вернуться к теме топика.

Давно пора. :)

_vb_:
Можете прокомментировать вот этот текст?

Я попробую, со своей колокольни.

В целом я более-менее согласен с автором.

1. Быть "фанатиком", отказываясь от этого стандартного в наше время стиля работы. Т.е. работать годами над какой-то выбранной проблемой, не обращая внимания ни на что вокруг. Такие есть (кстати в основном старые профессора, а не молодые), но очень мало и грубо говоря над ними все смеются, поскольку они как бы "неуспешные" по этим понятиям - нет ни репутации, ни денег. Я такой выбор для себя сделать не смог, хотя бы потому что без возможности подарить любимой девушке, нравящееся ей, колечко с бриллиантом мне как-то неуютно жить. ))) Да и в любом случае в одиночку очень трудно - нужны группы, общение и т.п.

Это типа как Перельман. Хреновый путь, т.к. по нему идут многие, а удача приходит к единицам. Остальные всю жизнь нищебродят... :(

2. Быть современным успешным учёным. Это значит забыть про настоящий поиск истины, но зато иметь приличные деньги и приятную жизнь. Да, да, те кто вам рассказывает сказки про "трудную жизнь современных учёных" или просто не в курсе или жалующийся неудачник. Современный учёный может зарабатывать без напряга нормальные деньги - на хорошее колечко подруге точно хватит. ))) Могу привести конкретный пример: выпускник универа (т.е. по сути ещё никто) без проблем получает грантик на 1.5К евро условно говоря за месяц работы и это как бы помимо основных источников дохода и помимо оплаты всяких там проживаний в разных странах, билетов и т.п. Но для этого надо заниматься не поиском истины, а некой имитацией... Лично я не захотел так.

С этим не согласен. Автор букв видимо еще молод, поэтому слишком категоричен, "или-или". На самом деле способный ученый (а тем более молодой, т.е. немеряно энергичный) вполне может совмещать текущие правила игры, сложившиеся в мировой фундаментальной науке с реальной научной работой. Да, это геморно, а что делать. Так поступают многие сильные ученые, потому что другого пути нет.

Другое дело, что современная фундаментальная наука стимулирует именно имитацию, поэтому настоящих ученых получается маловато. Главное - ИЦ, наукообразие, многабукаф и умение выбить гранты. :(

Можно не ходить в физику "курчатовских дыр", а просто посмотреть на мировую поисковую науку, тематичную данному форуму. Если с инженерной точки зрения все развивается достаточно прилично - хранение данных, быстые индексы, архитектура поиска, машинное обучение, то в фундаментальной части - все гораздо печальнее. В линковой составляющей ранжирования все болтается вокруг идей Брина и Пэйджа середины 90-х, в текстовой - вокруг вероятностных моделей из 80-х. Т.е. на самом деле конечно все как бы не так - имитаторы пишут зачетно, выходят кучи статей и выдается много солидных грантов, формулы новые появляются сложно-математические, слова умные льются потоком. Ну так иначе бы не давали грантов. :)

Достаточно вдумчиво почитать статьи на TREC - везде идеология поиска из прошлого тысячелетия, никакого креатива.

Если брать нашу фундаментальную науку и РАН - ну вот в РОМИПе ежегодно участвует коллектив от ИСА РАН и ни разу не был в лидерах. Ну и зачем он нужен? К РАН я скептически отношусь, финансировать эту структуру в текущем виде особо не стоит.

vitali_y:
тут есть "знатоки Яндекса"... может есть сами Яндекса писатели?

Писателей из Яндекса на серче почти нет, некому тут писать и не о чем. :)

vitali_y:
или может кто мне дать нормальное разумное объяснение как с помощью синонимизации можно захламить поисковую выдачу?
т.е. сослаться на определенную математическую модель стоящую за поиском (к примеру Яндексова) и привести пример - вот в таком случае при таком запросе будет в топе.

Не, Вы не поняли, синонимизация захламляет не топ выдачи, а индекс. Яндекс в ру-индексе с этим еще как-то пытается бороться, а гугл походу просто не понимает, что он индексирует кучу хлама.

Всего: 1960