G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
datot:
На конференции Гудману я задал вопрос про нейропакеты - ответ был однозначный: "Я знаком с Самим, точно нейропакеты не используют"

В матрикснете нейросети не используются. Но этот факт не имеет никакого отношения к данной статье, т.к. решались совершенно другие задачи. :)

В каких-то разработках Яндекса НС могут и использоваться, если это целесообразно. Не известно. Но в матрикснете никаких НС точно нет.

datot:
Мне оч. любопытно, кто из состава РУК обучался работы с нейросетями? Какой пакет взят за основу. Сколько времени планируется обучать нейропакет перед тем как включит его в работу.

datot, обучаются работе с нейропакетами студенты и прочие неспециалисты. В аналитическом отделе Рук работает Андрей Канунников, кандидат наук, который на машинном обучении стадо собак съел. :)

Поэтому никаких пакетов за основу брать было не нужно, у Рук имеется собственный софт, на определенном круге задач работающий гораздо эффективнее всех известных пакетов. Когда мы решали вопрос о том, как будем обучать, то было предложено несколько вариантов, в т.ч. и нейросетевой, благо софт крутой есть в наличии. Такой метод обучения показал отличный результат, что для меня, кстати, было несколько неожиданно, я не ожидал от нейросети такой эффективности. :)

datot:
половина фильтров в его скрипте заменит всю работу вашего супер-пупер аналитического отдела.

На самом деле методы исследования, о которых написано в первой части статьи, пересекаются в винком примерно на 20%. Просто они подробно не расписаны по понятным причинам, потому и может сложиться впечатление, что там все тупо. :)

wolf:
Идейный пЕАрщик - это ещё круче ;)

Чета как-то хреновастенько звучит. Даже хуже чем "маркетолог". Походу, придется с Руками какую-нить бумажку подписать, чтобы отмазаться. :)

wolf:
Вот это уже другой разговор ;)

Отлично, может к тому времени и Сеопульт тематику осилит. Устроим на РОМИПе "битву агрегаторов". :D

Ну и что касается математической оценки классификатора. Понятно, что малыми силами оценить трудно, автоматом - вообще нельзя. Разве что сравнивать с другим, но эталонных все равно нет, так что авто-сравнивалка не прокатит. Но есть отличный способ посмотреть на качество классификатора - поучавствовать в РОМИПе. У нас там есть две подходящие дорожки: дорожка по классификации Веб-страниц и дорожка по классификации Веб-сайтов. Можно записаться на следующий год, задания будут готовы в апреле-мае, как раз успеете довести до ума к тому времени. Заодно можно и Руки туда же подтянуть и устроить рубилово агрегаторов по-взрослому. :D

wolf:
"Иногда" - какая-то довольно странная для математика категория. Вот для пЕАрщика - вполне привычная ;)

Ээээ ннеее... ты не путай... Я-то на сегодня корешу с Руками, но бабла от них не получал ни разу, даже договор не подписан. В отличие от вас с Миражом, пЕАрщиков за деньги. Так что чья бы корова мычала, но тока не твоя. :D

Что касается "иногды", то рожденный тобой и Михой сервис пока плохо узнает родную маму, т.е. математическими категориями его оценивать рановато. ;)

Миха, ну ты пойми, найти тематику, как "одну из", причем не самую главную - не бьется с "точностью, доступной разве что поисковым системам". Ну никак.

Я, собственно, только против этой твоей бодрой фразы. А так ты все делаешь правильно, если будешь дальше развивать определялку, то все будет гуд. :)

Чтобы заявлять о "точности, доступной разве что поисковым системам", нужно хотя бы попсовые сервисы уверенно пячить, вообще на любом документе. А этого пока нет.

Это не "73% экономически активных россиян", это "73% российских и желающих принять участие в анкетировании посетителей сайта Superjob.ru, которых не устраивает текущая работа или ее вообще нет". :D

jorevo:
ЗЫ. Вообще напрашивается решение в виде поддоменов... но вот можно ли разным поддоменам в вебмастере назначать регионы... кто знает?

Вроде говорят, что да, можно так делать. Добавляя поддомен в панель вебмастера.

Webvizit, Ваши сайты в итоге все равно склеятся, как аффилиаты. Это если будут на разных доменах, если на поддоменах, то они склеены изначально. Надежнее делать на разных доменах, лучше на национальных, типа kz, by и т.д. Пока в Яндексе региональные сайты имеют преимущество, продвигать будет легче. Так же важно продвигать эти домены равномерно, а то иногда бывает, что филиал в зоне com.ua вытесняет главный сайт в зоне ru по геонезависимым запросам в РФ. :)

MiRaj:
Обожаю меряться :)
Илья, а критерии оценки озвучишь, а? Ну и заодно цели инструментов (пусть даже мы анализируем унылую демку, собранную за 20 минут для демонстрации).

Критерии нужны для серьезных исследований, а тут они были ни к чему, ты прокололся уже на собственном сайте, даже не поняв этого. Еще и картинку показал. :D

MiRaj:
Да-да, расскажи сказку, что Яндекс не может выделить необходимое количество ресурсов для основного профитогенерящего инструмента - Директа. Ну давай не будем ерунду пороть, не на конференции :)

На конференциях ерунду порят только некомпетенты или хитрые коммерсы. Я ни к одной из этих категорий вроде не отношусь.

MiRaj:
G00DMAN, тебе слова типа "нет тематики" или "нет региона" о чем-то говорят? Или ты серьезно думаешь, что для каждого документа можно определить регион и тематику :D

Конечно не для каждого, я вроде и не говорил обратного. Я говорил, что у тебя определитель сырой, он пока что слабее многих и не чета поисковым.

MiRaj:
Ну конечно, они разработали отдельный рубрикатор, ага.

Ага. :D

MiRaj:
Впрочем какой бы рубрикатор не использовал Яндекс - нам все равно, какие там рубрики, если совпадает рубрика донора и акцептора :)

Вам то может и все равно, просто толк от такой рубрикации будет только для тицеводов. :)

MiRaj:
Да, ты еще семантическое зеркало от Ашманова приведи и кевовский.
Первый ужасен, второй неплох, но заброшен автором.

UPD: таки привел :D

Тот, который ужасен, иногда определяет лучше твоего, который, видимо, прекрасен. :D

MiRaj:
Илья, если бы она была не сложная, над ней бы не работали постоянно Яндекс, Гугл и любая другая система, зарабатывающая на контекстной рекламе.
Судя по тому количеству бредообъявлений, выдающихся на сайтах РСЯ, проблема не решена до сих пор.

То, что она не решена, не означает, что она сложна. :D

Я же писал выше - задача простая, но сильно геморная, требующая очень больших человеко-ресурсов. Для оптимизации расходования этих ресурсов она и не решается сразу, новые данные добавляются по мере поступления багов. Потому решаться будет долго, но так на данном этапе выгоднее экономически. :)

Для сравнения, кроме недоделанного в линкфидаторе, можно пользоваться и другими сервисами:

сервис Игоря Ашманова

сервис Андрея Коваленко

Кстати, урл, про который говорил _han_ (с пледами), только Ашманов четко идентифицировал.

Кроме этих есть еще куча закрытых наработок, которые используют в собстенных целях разные коллективы. Я знаю не менее пяти таких, все гораздо более качественные, чем указанные выше.

В целом, задача определения тематичности не сложная, но геморная, требующая достаточно больших человеко-ресурсов. А что касается демки Вебэффектора, то Мираж рано щеки стал дуть, ему еще работать и работать. Но шансы на успех есть. :)

Всего: 1960