根据维基百科,"科学是一项系统性事业,它以可检验的解释和预测的形式构建和组织知识"。如果我们回到这个词的本义,那么数据科学家就是用数据做实验的人,是研究基本现象的博学研究者,要么是数据的基本现象,要么是数据的基本现象。再加上一点实用主义,数据科学可以被描述为一个广阔的科学领域,它通过一系列操作从给定的数据集中提取知识,以解决特定的问题。
现在,许多大学都开设了数据科学课程,这似乎是高等教育的 "必修课"。 虽然这些课程已经有所发展,但大多数培训课程还是将学生变成了机器学习者。它们教授学生最新的算法和如何掌握Kaggle,主要侧重于数据科学大型价值链的建模。机器学习机器学习兴起于 20 世纪 50 年代,是为了让计算机更快、更精确地完成任务而创建的一套工具。让我们回到 Kaggle 来说明这一点:该平台的用户必须将高度复杂的技术应用于现成的数据集,而这些数据集的来源并不总是已知的,他们的最终目标是在预测量表上获得最高分。虽然机器学习 的理论和实践知识对解决问题至关重要,但在商业环境中通常还不够,因为解决问题的关键在于对业务背景的了解和理解、合格数据的可用性以及利用结果的适当解释工具。这就解释了机器学习专家与数据科学家的区别,以及为什么企业知道选择哪位专业人士来成功完成数据项目如此重要。我们还应该提到,50% 的数据科学项目失败,部分原因是难以获得正确的技能(IDC 研究)。
早在 2012 年,《 哈佛商业评论》就称数据科学家是 "21 世纪最性感的工作",但没有提供太多细节。要知道,无论是 Airbnb、摩根大通还是通用汽车公司的数据科学家,他们所做的事情都大相径庭,因此很难说得很具体。但是,无论差异如何,他们都有一个共同特点:专注于业务。事实上,数据科学的目的是利用数据解决业务中的问题,例如预测性维护、欺诈检测、定制购买途径或内容推荐等等。这些项目需要广泛的技能和专业知识,即:
......并衡量结果,不断改进技术!
如果 "数据科学家 "实际上是一个误称呢?如果数据科学是一整个团队的工作,拥有几套不同的技能组合呢?
实际上,数据科学不可能只由企业中的一个人负责。履行这一职责需要几个不同的人:
对于公司来说,明确每位 "数据科学家 "的不同角色至关重要。这将有助于招聘过程,避免对角色的任何误解,促进团队的成就感,并确保数据驱动项目的成功。在五十五所,我们利用这些原则来调整我们的战略,以适应客户的技能组合和可用资源,使他们能够实现自己的目标。这就是我们拥有上述不同配置的原因:
我们的目标不是找到一个无所不能的数据科学家,而是确定每个人的需求和优势,创建一个功能齐全的数据科学团队,并充分利用每个人的技能。归根结底,关键在于......管理!
发现最新资讯、深度文章、网络研讨会视频,以及55数据的各项活动。