Анализ одной вакансии

12 3
[Удален]
2901

Не секрет, что Яндекс открыто публикует свои вакансии, достаточно подробно их расписывая. Их анализ может дать некую информацию по поводу того, как работает и куда движется компания. Анализ одной из них я и хочу провести.

Для начала собственно текст вакансии:

В Яндексе есть большое количество задач, связанных с обработкой неструктурированной информации. Это, например, определение тематики и региона веб-сайтов и страниц, отделение хороших сайтов/писем от спама, отделение навигационной части сайта от значимого текста, нахождение дубликатов изображений, извлечение фактов из текстов, кластеризация объектов различного типа и многое другое.

Требуется человек, который будет готов научиться работать в вышеперечисленных областях.

Требования:
хорошее знание математики и computer science;
хорошее знание C++, классических алгоритмов и структур данных;
знание английского языка, достаточное для чтения англоязычной математической литературы;
интерес к областям автоматической обработки текстов, Artificial Intelligence либо Information Retrieval;
настойчивое желание самостоятельно изучать тематику и добиваться помощи от старших коллег.

Начнем с того, что Яндекс умеет:

1) Определение тематики ... веб-сайтов и страниц

Помнится, ваш покорный слуга год назад или даже более говорил об этом. Почти никто не верил. Однако теперь можно считать свершившимся фактом. Особо обращаю внимание: не только веб-сайтов, но и страниц! Думаю именно внедрением этой технологии объясняется не столь давнее драматическое снижение тИЦ, которое все помнят. Ну а где еще она может использоваться, догадайтесь сами.

2) Отделение хороших сайтов... от спама.

Собственно об этом мы уже знаем - пресловутые автоматические фильтры и санкции. Но лишнее подтверждение, как говорится, не помешает.

3) Отделение навигационной части сайта от значимого текста.

Тоже вполне логично, т.к. навигационная часть не является контентом, а значит при расчете релевантности страницы по внутренним факторам ее можно отбросить, либо значительно понизить вес. Впрочем об этом было не трудно догадаться, да и обсуждалось это уже достаточно давно.

Но есть еще один момент. Навигационная часть сайта также является достаточно важной информацией. Как минимум она показывает основную структуру сайта, его ключевые разделы. И не думаю, что этим можно ограничиться.

Хотя на самом деле есть и еще один момент, весьма немаловажный. Но об этом умолчу, кому надо, сам догадается.

4) Извлечение фактов из текста

Не что иное, как семантический анализ. Еще 3 года назад эта технология была применена в Яндекс Новостях. И нет оснований пренебрегать возможностью доработки и использования этой технологии в основном поиске. Поле для ее применения просто громадное, а даваемые возможности можно осваивать не один год. Например, с ее помощью можно находить спамные тексты.

5) Кластеризация объектов различного типа

Формулировка достаточно размытая, поэтому пытаться высказывать какие-то предположения по этому поводу - скорее спекуляция. Единственное о чем можно говорить с уверенностью, речь идет об объектах, а не о страницах. А страницы - лишь один из типов объектов. Дальше думаем сами.

К сожалению на этом перечень раскрываемых технологий завершается. Остальное сокрыто под многозначительным "... многое другое".

Все перечисленные технологии говорят о настоящем Яндекса, но один факт - скорее о будущем: Artificial Intelligence (искусственный интеллект). Оснований подозревать, что Яндекс уже сейчас использует эти технологии - нет. А вот сам контекст в котором употреблен этот термин позволяет предположить, что Яндекс прекрасно понимает перспективу этих технологий и необходимость их использования в поисковых технологиях будущего. Напомню, что Google не так давно заявил, что ведет разработки в этом направлении. Яндекс таких заявлений не делал, но, как видим, об этом думает и уже начинает действовать.

Zipoff
На сайте с 23.04.2007
Offline
64
#1

Очень познавательно, со всем согласен только вот где говорится про определение тематики конкретной страницы и как вытекающий фактор ТИЦ.

Дайте ссылку на обьявление если не сложно!

А вообще понравилось +

[Удален]
#2
Zipoff:
где говорится про определение тематики конкретной страницы и как вытекающий фактор ТИЦ

Это предположение. думаю вполне логичное, хотя на истину претендовать не пытаюсь :)

Ссылка на вакансию:

http://company.yandex.ru/inside/job/data_mining_dev.xml

Zipoff
На сайте с 23.04.2007
Offline
64
#3
aka352:
Это предположение. думаю вполне логичное, хотя на истину претендовать не пытаюсь :)

Ссылка на вакансию:
http://company.yandex.ru/inside/job/data_mining_dev.xml

Думаю ваше предположение и в правду логичное, хотя с другой стороны может имели ввиду поддомен описанный в Я.Каталоге который тоже является частью сайта!

Интересно услышать Ваше мнение.

[Удален]
#4

Zipoff, нет,я имею в виду сайт, вообще не описаный в Я.Ка - ни в его открытой, ни в скрытой части, т.е. определение тематики исключительно по контенту.

[Удален]
#5
Помнится, ваш покорный слуга год назад или даже более говорил об этом. Почти никто не верил. Однако теперь можно считать свершившимся фактом. Особо обращаю внимание: не только веб-сайтов, но и страниц!

Помнится, еще года два назад сегалович заявил (причем на этом форуме), что да, теоретически умеет. Секрет полишинеля.

Остальное ни о чем.

paef
На сайте с 03.02.2007
Offline
37
#6

Яндекс разве не пользуется своими словарями для определения тематик сайтов? Странно 😕

Продвижение сайтов (http://wetop.ru)
[Удален]
#7
Miha Kuzmin (KMY):
Помнится, еще года два назад сегалович заявил (причем на этом форуме), что да, теоретически умеет. Секрет полишинеля.

Речь об этом? /ru/forum/comment/23881

Если да, то это уже боле чем 4 года назад. Да и речь шла только о сайтах и применительно к Я.Ка.

Если же нет, не поленитесь дать ссылочку. Думаю многим будет интересно. Потому как я такой темы не припомню.

IndexSa
На сайте с 23.12.2005
Offline
205
#8

Вообще то "есть большое количество задач, связанных с обработкой неструктурированной информации. Это, например, определение тематики и региона веб-сайтов и страниц...."

И "Начнем с того, что Яндекс умеет:" Не вяжется.

мозг находится в мире, а мир находится в мозгу
[Удален]
#9

aka352, не об этом, это когда динозавры жили. Ищи где-то двух-полутора годичные темы аккурат про тематику.

[Удален]
#10
Miha Kuzmin (KMY):
Ищи где-то двух-полутора годичные темы аккурат про тематику

Просмотрел все сообщения Ильи за этот период - нету. Есть только цитаты от уважаемого Seventh Son из поста Ильи, ссылку на который давал выше.

Вы уж извольте на будущее подкреплять сказаное фактами. Если найдете и скинете ссылочку, буду благодарен.

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий