Задача для мозга!

12
[Удален]
840

На одном собеседовании дали решить задачу. Вакансия подразумевает системный анализ и базы данных.

Есть таблица (xls) в которой 2 колонки:

1. Название компании

2. адрес сайта

Есть таблица №2. в которой только одна колонка, а в ней список отраслей (к примеру 20 вариантов: id1= инет, id2=промышленность и т.д.)

Вопрос: как правильно присвоить отрасль для каждой компании, если мы изначально не знаем какая компания к какой отрасли относится?

SS
На сайте с 14.04.2006
Offline
110
#1

Задание описано не польностью. Слишком большое количество деталей не сказано как в исходных данных так и в вопросе.

Вопрос можно также сформулировать: как угадать имя человека, имя которого мы ещё незнаем? Утрирую конечно.

vlasoff
На сайте с 31.08.2007
Offline
101
#2

Если количество строк в обеих таблицах совпадает, то может так?

таблица1.строка1 = таблица2.строка1

...

таблица1.строкаn = таблица2.строкаn

dark-god
На сайте с 12.08.2011
Offline
71
#3

Логически.

Попытаться присвоить компаниям отрасль по названию сайта и самой компании.

Логично что "Уралтяжмаш" будет ближе к производству техники, а ITMedia.ru к АйТи тематике.

Конечно существуют названия типа "Уроборос", и по названию ничего не скажешь, но таких от силы останется 5-6. В этом случае начинаем искать ключевик в домене.

(Не было указано, что так нельзя, на худой конец можно написать скриптик, который бы сравнивал слова из 2 таблицы с первой.)

Мне кажется, что нужно создать сайт, где одинокие носки смогли бы найти себе пару...
VoV@
На сайте с 22.09.2007
Offline
196
#4

Рспределить как попало, потом если будут разгнванные звонки, постепенно исправлять.

⭐ Разработка Андроид-приложений (Xamarin C#). ⭐ Разработка ASP.NET (WebForms, MVC, WebAPI, Core). ⭐ Цой жив!
sir_Jack
На сайте с 04.04.2009
Offline
37
#5

Я бы прошелся по всем сайтам, вытащил бы тексты, титлы, ключевики и декскрипшены всякие.

Потом либо глазами, либо всякими кластеризаторами выделил бы характерные слова для каждой категории и присвоил бы нужные категории тем фирмам, у которых ключевые слова совпадают

для составления списка ключевых терминов отрасли - можно поискать словари.

То что автоматом не выделится - смотреть глазами и модифицировать список слов.

P.S. Если надо научности добавить - можно нейросети впихнуть

MASe
На сайте с 17.09.2002
Offline
219
#6

категорию из ЯК посмотреть...

Only God Can Judge Me... Nobody Else... Дрезна (http://www.drezna.ru/) Помощники: Sape (http://www.sape.ru/r.167724536c.php)
[Удален]
#7
sir_Jack:
Я бы прошелся по всем сайтам, вытащил бы тексты, титлы, ключевики и декскрипшены всякие.

На такой вариант появляется условие: кол-во записей компаний 2 млн.

В общем добиваюсь дополнительных переменных, т.к. эта задача не решаема. Напишу позже.

sir_Jack
На сайте с 04.04.2009
Offline
37
#8
Magdee:
На такой вариант появляется условие: кол-во записей компаний 2 млн.

Ну принципиально размер неважен :) Или вам надо за 10 минут это сделать?)

Для сокращения выборки можно пройтись по названиям - попытаться из слов названий составить классы. Ну и если это собеседование - нужно не реализацию делать, а принципиальный подход :)

B
На сайте с 02.05.2007
Offline
240
#9
Magdee:

Вопрос: как правильно присвоить отрасль
Magdee:

мы изначально не знаем какая компания к какой отрасли относится

правильно никак, максимально близко - уже сказали

P.S. решите лучше задачу "как правильно написать курс доллара на завтра", там хоть инструментарий есть

SS
На сайте с 06.08.2010
Offline
8
#10
Magdee:
На одном собеседовании дали решить задачу. Вакансия подразумевает системный анализ и базы данных.

Есть таблица (xls) в которой 2 колонки:
1. Название компании
2. адрес сайта

Есть таблица №2. в которой только одна колонка, а в ней список отраслей (к примеру 20 вариантов: id1= инет, id2=промышленность и т.д.)

Вопрос: как правильно присвоить отрасль для каждой компании, если мы изначально не знаем какая компания к какой отрасли относится?

Т.к. это собеседование, то скорее всего от вас требовался не обязательно оптимальный, но вполне рабочий ответ. И конечно не подразумевается что этим надо будет заняться прям на собеседовании.

Вполне решаемо может быть так:

1. Анализ последовательностей в названиях фирм. Наример "УкрТяжПром", "ОАО Рыболов", "ФЛП АгроПром".

2. Анализ слов, находящихся на сайтах фирм (парсинг).

3. Если имеется ввиду, что как это непосредственно сделать в Excele, то надо видеть саму таблицу.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий