- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Не секрет, что Яндекс открыто публикует свои вакансии, достаточно подробно их расписывая. Их анализ может дать некую информацию по поводу того, как работает и куда движется компания. Анализ одной из них я и хочу провести.
Для начала собственно текст вакансии:
Требуется человек, который будет готов научиться работать в вышеперечисленных областях.
Требования:
хорошее знание математики и computer science;
хорошее знание C++, классических алгоритмов и структур данных;
знание английского языка, достаточное для чтения англоязычной математической литературы;
интерес к областям автоматической обработки текстов, Artificial Intelligence либо Information Retrieval;
настойчивое желание самостоятельно изучать тематику и добиваться помощи от старших коллег.
Начнем с того, что Яндекс умеет:
1) Определение тематики ... веб-сайтов и страниц
Помнится, ваш покорный слуга год назад или даже более говорил об этом. Почти никто не верил. Однако теперь можно считать свершившимся фактом. Особо обращаю внимание: не только веб-сайтов, но и страниц! Думаю именно внедрением этой технологии объясняется не столь давнее драматическое снижение тИЦ, которое все помнят. Ну а где еще она может использоваться, догадайтесь сами.
2) Отделение хороших сайтов... от спама.
Собственно об этом мы уже знаем - пресловутые автоматические фильтры и санкции. Но лишнее подтверждение, как говорится, не помешает.
3) Отделение навигационной части сайта от значимого текста.
Тоже вполне логично, т.к. навигационная часть не является контентом, а значит при расчете релевантности страницы по внутренним факторам ее можно отбросить, либо значительно понизить вес. Впрочем об этом было не трудно догадаться, да и обсуждалось это уже достаточно давно.
Но есть еще один момент. Навигационная часть сайта также является достаточно важной информацией. Как минимум она показывает основную структуру сайта, его ключевые разделы. И не думаю, что этим можно ограничиться.
Хотя на самом деле есть и еще один момент, весьма немаловажный. Но об этом умолчу, кому надо, сам догадается.
4) Извлечение фактов из текста
Не что иное, как семантический анализ. Еще 3 года назад эта технология была применена в Яндекс Новостях. И нет оснований пренебрегать возможностью доработки и использования этой технологии в основном поиске. Поле для ее применения просто громадное, а даваемые возможности можно осваивать не один год. Например, с ее помощью можно находить спамные тексты.
5) Кластеризация объектов различного типа
Формулировка достаточно размытая, поэтому пытаться высказывать какие-то предположения по этому поводу - скорее спекуляция. Единственное о чем можно говорить с уверенностью, речь идет об объектах, а не о страницах. А страницы - лишь один из типов объектов. Дальше думаем сами.
К сожалению на этом перечень раскрываемых технологий завершается. Остальное сокрыто под многозначительным "... многое другое".
Все перечисленные технологии говорят о настоящем Яндекса, но один факт - скорее о будущем: Artificial Intelligence (искусственный интеллект). Оснований подозревать, что Яндекс уже сейчас использует эти технологии - нет. А вот сам контекст в котором употреблен этот термин позволяет предположить, что Яндекс прекрасно понимает перспективу этих технологий и необходимость их использования в поисковых технологиях будущего. Напомню, что Google не так давно заявил, что ведет разработки в этом направлении. Яндекс таких заявлений не делал, но, как видим, об этом думает и уже начинает действовать.
Очень познавательно, со всем согласен только вот где говорится про определение тематики конкретной страницы и как вытекающий фактор ТИЦ.
Дайте ссылку на обьявление если не сложно!
А вообще понравилось +
где говорится про определение тематики конкретной страницы и как вытекающий фактор ТИЦ
Это предположение. думаю вполне логичное, хотя на истину претендовать не пытаюсь :)
Ссылка на вакансию:
http://company.yandex.ru/inside/job/data_mining_dev.xml
Это предположение. думаю вполне логичное, хотя на истину претендовать не пытаюсь :)
Ссылка на вакансию:
http://company.yandex.ru/inside/job/data_mining_dev.xml
Думаю ваше предположение и в правду логичное, хотя с другой стороны может имели ввиду поддомен описанный в Я.Каталоге который тоже является частью сайта!
Интересно услышать Ваше мнение.
Zipoff, нет,я имею в виду сайт, вообще не описаный в Я.Ка - ни в его открытой, ни в скрытой части, т.е. определение тематики исключительно по контенту.
Помнится, еще года два назад сегалович заявил (причем на этом форуме), что да, теоретически умеет. Секрет полишинеля.
Остальное ни о чем.
Яндекс разве не пользуется своими словарями для определения тематик сайтов? Странно 😕
Помнится, еще года два назад сегалович заявил (причем на этом форуме), что да, теоретически умеет. Секрет полишинеля.
Речь об этом? /ru/forum/comment/23881
Если да, то это уже боле чем 4 года назад. Да и речь шла только о сайтах и применительно к Я.Ка.
Если же нет, не поленитесь дать ссылочку. Думаю многим будет интересно. Потому как я такой темы не припомню.
Вообще то "есть большое количество задач, связанных с обработкой неструктурированной информации. Это, например, определение тематики и региона веб-сайтов и страниц...."
И "Начнем с того, что Яндекс умеет:" Не вяжется.
aka352, не об этом, это когда динозавры жили. Ищи где-то двух-полутора годичные темы аккурат про тематику.
Ищи где-то двух-полутора годичные темы аккурат про тематику
Просмотрел все сообщения Ильи за этот период - нету. Есть только цитаты от уважаемого Seventh Son из поста Ильи, ссылку на который давал выше.
Вы уж извольте на будущее подкреплять сказаное фактами. Если найдете и скинете ссылочку, буду благодарен.