В матрикснете нейросети не используются. Но этот факт не имеет никакого отношения к данной статье, т.к. решались совершенно другие задачи. :)
В каких-то разработках Яндекса НС могут и использоваться, если это целесообразно. Не известно. Но в матрикснете никаких НС точно нет.
datot, обучаются работе с нейропакетами студенты и прочие неспециалисты. В аналитическом отделе Рук работает Андрей Канунников, кандидат наук, который на машинном обучении стадо собак съел. :)
Поэтому никаких пакетов за основу брать было не нужно, у Рук имеется собственный софт, на определенном круге задач работающий гораздо эффективнее всех известных пакетов. Когда мы решали вопрос о том, как будем обучать, то было предложено несколько вариантов, в т.ч. и нейросетевой, благо софт крутой есть в наличии. Такой метод обучения показал отличный результат, что для меня, кстати, было несколько неожиданно, я не ожидал от нейросети такой эффективности. :)
На самом деле методы исследования, о которых написано в первой части статьи, пересекаются в винком примерно на 20%. Просто они подробно не расписаны по понятным причинам, потому и может сложиться впечатление, что там все тупо. :)
Чета как-то хреновастенько звучит. Даже хуже чем "маркетолог". Походу, придется с Руками какую-нить бумажку подписать, чтобы отмазаться. :)
Отлично, может к тому времени и Сеопульт тематику осилит. Устроим на РОМИПе "битву агрегаторов". :D
Ну и что касается математической оценки классификатора. Понятно, что малыми силами оценить трудно, автоматом - вообще нельзя. Разве что сравнивать с другим, но эталонных все равно нет, так что авто-сравнивалка не прокатит. Но есть отличный способ посмотреть на качество классификатора - поучавствовать в РОМИПе. У нас там есть две подходящие дорожки: дорожка по классификации Веб-страниц и дорожка по классификации Веб-сайтов. Можно записаться на следующий год, задания будут готовы в апреле-мае, как раз успеете довести до ума к тому времени. Заодно можно и Руки туда же подтянуть и устроить рубилово агрегаторов по-взрослому. :D
Ээээ ннеее... ты не путай... Я-то на сегодня корешу с Руками, но бабла от них не получал ни разу, даже договор не подписан. В отличие от вас с Миражом, пЕАрщиков за деньги. Так что чья бы корова мычала, но тока не твоя. :D
Что касается "иногды", то рожденный тобой и Михой сервис пока плохо узнает родную маму, т.е. математическими категориями его оценивать рановато. ;)
Миха, ну ты пойми, найти тематику, как "одну из", причем не самую главную - не бьется с "точностью, доступной разве что поисковым системам". Ну никак.
Я, собственно, только против этой твоей бодрой фразы. А так ты все делаешь правильно, если будешь дальше развивать определялку, то все будет гуд. :)
Чтобы заявлять о "точности, доступной разве что поисковым системам", нужно хотя бы попсовые сервисы уверенно пячить, вообще на любом документе. А этого пока нет.
Это не "73% экономически активных россиян", это "73% российских и желающих принять участие в анкетировании посетителей сайта Superjob.ru, которых не устраивает текущая работа или ее вообще нет". :D
Вроде говорят, что да, можно так делать. Добавляя поддомен в панель вебмастера.
Webvizit, Ваши сайты в итоге все равно склеятся, как аффилиаты. Это если будут на разных доменах, если на поддоменах, то они склеены изначально. Надежнее делать на разных доменах, лучше на национальных, типа kz, by и т.д. Пока в Яндексе региональные сайты имеют преимущество, продвигать будет легче. Так же важно продвигать эти домены равномерно, а то иногда бывает, что филиал в зоне com.ua вытесняет главный сайт в зоне ru по геонезависимым запросам в РФ. :)
Критерии нужны для серьезных исследований, а тут они были ни к чему, ты прокололся уже на собственном сайте, даже не поняв этого. Еще и картинку показал. :D
На конференциях ерунду порят только некомпетенты или хитрые коммерсы. Я ни к одной из этих категорий вроде не отношусь.
Конечно не для каждого, я вроде и не говорил обратного. Я говорил, что у тебя определитель сырой, он пока что слабее многих и не чета поисковым.
Ага. :D
Вам то может и все равно, просто толк от такой рубрикации будет только для тицеводов. :)
Тот, который ужасен, иногда определяет лучше твоего, который, видимо, прекрасен. :D
То, что она не решена, не означает, что она сложна. :D
Я же писал выше - задача простая, но сильно геморная, требующая очень больших человеко-ресурсов. Для оптимизации расходования этих ресурсов она и не решается сразу, новые данные добавляются по мере поступления багов. Потому решаться будет долго, но так на данном этапе выгоднее экономически. :)
Для сравнения, кроме недоделанного в линкфидаторе, можно пользоваться и другими сервисами:
сервис Игоря Ашманова
сервис Андрея Коваленко
Кстати, урл, про который говорил _han_ (с пледами), только Ашманов четко идентифицировал.
Кроме этих есть еще куча закрытых наработок, которые используют в собстенных целях разные коллективы. Я знаю не менее пяти таких, все гораздо более качественные, чем указанные выше.
В целом, задача определения тематичности не сложная, но геморная, требующая достаточно больших человеко-ресурсов. А что касается демки Вебэффектора, то Мираж рано щеки стал дуть, ему еще работать и работать. Но шансы на успех есть. :)