主页 > 教育 > 正文

国外的“大数据相关专业”留学生必须知道

更新时间:2019-03-13点击数:文字大小:

First thing first:什么是数据科学?

数据科学是对大数据进行分析、挖掘和编程的研究和应用的学科。数据科学的主要目的是创建和利用各种形式的数据,以便更好地了解趋势和现象。数据在几乎所有职业领域都很有用,但通常与商业、科学研究、公共政策分析和制定和健康有关的研究关系最为密切。

在商业世界中,数据科学旨在了解消费者和市场趋势以及定位企业职能。在其他领域,数据用于收集信息和检查趋势,但通常有不同的最终目标-例如收集人口普查数据(用于公共政策)或有关疾病和疾病(用于医学)的统计数据。

数据科学和信息科学、统计学、机器学习等学科有什么不同?

数据科学依赖两个因素:一是数据的广泛性和多样性;二是数据研究的共性。现代社会的各行各业都充满了数据,这些数据的类型多种多样,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、语音等非结构化数据。数据分析通常是随机模型的反问题,因此它们的研究有很多共性。例如,自然语言处理和生物大分子模型都用到隐马尔科夫过程和动态规划方法,其最根本的原因是它们处理的都是一维随机信号;再如,图像处理和统计学习中都用到的正则化方法,也是处理反问题的数学模型中最常用的一种。

数据科学主要包括两个方面:用数据的方法研究科学和用科学的方法研究数据。前者包括生物信息学、天体信息学、数字地球等领域;后者包括统计学、机器学习、数据挖掘、数据库等领域。

数据科学项目和相关学位的区别

由于数据科学本身的复杂性和跨学科特性,数据科学相关职位对学位要求通常是硕士或以上。但和数据科学相关的项目琳琅满目,不少大学同时开设若干与之相关的项目(如哥伦比亚大学、卡内基梅隆、纽约大学)。该如何区分各项目间的差别?我们汇编了数据科学硕士和相关学位课程的信息,以供参考。

数据科学硕士Master’s in Data Science

对于那些希望在高科技相关领域(Tech)就业的人而言,数据科学专业是明智的职业选择。典型的数据科学课程课程通常将应用统计等数学和统计学课程作为核心,搭配以SQL和Python等编程技能课程。数据科学硕士课程可以帮助毕业生为各种领域和领域的工作机会做好准备—从数据架构,到计算机工程,再到编程等。

商业分析硕士Master’s in Business Analytics

商业分析硕士学位专注于数据应用,以研究消费者、市场和世界经济趋势。商业分析的学生研究将大量收集的数据转化为可操作的业务战略决策的过程和技术。例如,企业或市场分析师可能会观察到消费者行为的趋势,并进行定价或目标客户细分的决策制定。“数据驱动决策”是这门学科的核心。本质上,商业分析是商科的细分方向,对商业决策过程方法论的学习大于数据分析方法本身。

相关阅读:留学生高效学习好物推荐|http://www.australiaway.org/a/hangyedongtai/158.html

信息系统硕士Master’s in Information Systems

什么是信息系统?信息系统是通常由技术驱动的系统,用于收集、组织、说明和整合各种形式的信息和数据。大多数信息系统属于“基于计算机”的类别,用于支持组织的业务流程。因此基于现成的计算机架构、语言和系统进行的信息收集、组织和整合的工作是重点。信息系统的硕士学位课程通常面向对商业环境中的技术管理岗位。信息系统专业学生接受信息系统设计和分析、数据库管理和系统架构方面的训练。

运筹学和相关工程学科Master’s in Operations Research

该专业涉及应用先进的分析方法,以帮助做出更好的决策。它通常被认为是应用数学的一个子领域。具体而言,这个专业学习采用其他数学科学的技术,如数学建模,统计分析和数学优化,运算研究来为复杂的决策问题找到最优或接近最优的解决方案。由于其强调人力-技术互动,并且由于其专注于实际应用,运营研究与其他学科重叠,特别是工业工程和运营管理,并借鉴了心理学和组织科学。因此在工程学里也和工业工程专业重叠。运筹学通常关注目标的最大化(利润,绩效或收益)或最小化问题(损失,风险或成本)。

数据科学中的其他相关硕士学位

虽然以上三个专业是和数据科学与分析最相关的专业,但它们并非仅有的学位—还有许多其他课程也符合数据科学相关岗位的需求。例如,对于那些对计算机编程特别感兴趣的人来说,集中在计算机科学、计算机工程或网络安全等领域的学位也是适合的。另外的选择还有:

健康信息学:学习创建、分析和解释生物数据,以帮助发现世界健康和医学的趋势。

地质信息系统:对于地质领域,GIS是挖掘地理数据,分析空间信息甚至编辑地图数据的重要工具。

公共政策的数据分析:公共政策领域大量使用数据,以解释人口,死亡率和教育水平等领域的国内和世界趋势。

总结:无论上述专业如何选择,它们都在强调和培养如下几个维度的能力

统计和数学

编程语言,如R或Python

人工智能

信息系统

分析决策过程

工程学方法

核心职业和相关职责

以下我们举出4个数据科学相关专业毕业生最主要的就业岗位和具体职责

数据科学家/研究者:通常,真正的数据科学家是能够并且应该胜任所有数据科学相关过程的人,顾名思义,他们是科学家。他们以各种方式试验数据,以找到现有问题的解决方案并寻找新的仅使用数据分析的商业机会。在数学上,这转化为复杂的假设,实验又转化为算法。一旦他们确定了他们的发现,他们就会将工作重定向到建模师和工程师,以生产和扩展解决方案。他们拥有强大的技能:统计、其从事领域的专业知识,足够的编程能力来实现和测试假设。

机器学习工程师/数据建模师:并非所有数据分析的实际工作都需要机器学习,但机器学习可以处理所有混乱的数据和复杂的算法,如聚类、回归、分类、预测等,以提出技术/数学解决方案。这些人通常与软件和数据库工程师同步工作,最终生成代码以开发可扩展的解决方案,而当信息爆炸时,还需要一个精通hadoop和distributed computing技能的工程师。总结,除了精通算法、编程和具备足够的数学/统计知识外,他们还必须理解数据科学家要什么。

商业分析师:他们懂得如何将商业问题和技术/数学问题进行转换。他们的工作涉及将技术结果适当地翻译成商业语言和解决方案。关键技能:信息展示和商业演讲,统计结果的解释,中等的R或SAS的编程能力。

顾问:这些人负责与客户打交道,了解业务问题/要求,推销解决方案等。在分析方面,他们只涉及“小数据集”的基本统计。

哥伦比亚MS in Data Science项目作例

接下来,我们就以哥伦比亚数据科学硕士项目的课程设置作为参考

-计算机和编程类

Computer Systems for Data Science

先修课:计算机系统组织和C/C++。Corequisites:CSOR W4246数据科学算法,STAT W4203概率论或对等课程。该课程介绍计算机体系结构和分布系统,重点介绍warehouse scale计算系统。主题将包括计算机系统的基本权衡,利用指令级并行性的硬件和软件技术,数据级并行和任务级并行,调度,缓存,预取,网络和内存架构,延迟和吞吐量优化,和数据编程的基础。

Machine Learning for Data Science

先修课:线性代数和概率与统计。该课程是机器学习的研究生入门课程。该课程涵盖了有监督机器学习的基本统计原理,以及一些常见的算法范例。如果时间允许,也涉及representation learning和online learning的学习。

Algorithms for Data Science

先修课:编程基础知识,微积分和线性代数的基础知识。该课程学习组织数据的方法,例如,散列、树、队列、列表、优先级队列。用于计算数据统计数据的流式算法。排序和搜索。用于搜索,最短路径和匹配的基本图形模型和算法。动态编程。线性和凸面编程。浮点算法,数值算法的稳定性,特征值,奇异值,PCA,梯度下降,随机梯度下降和块坐标下降。共轭梯度,牛顿和拟牛顿方法。来自信号处理,协同过滤,推荐系统等的大规模应用。

-数学和统计类

Introduction to Data Science

本课程将强调处理大规模数据的实用技术。涵盖的具体主题包括统计建模和机器学习,数据管道,编程语言,“大数据”工具,现实世界主题和案例研究。将需要使用统计和数据处理软件。本课程不计入统计学,计算机科学或数据科学等研究生课程的学位要求。

Probability Theory

先修课:微积分I和微积分II或同等。该课程是基于微积分的概率论入门。涵盖的主题包括随机变量,条件概率,期望,独立性,贝叶斯规则,重要分布,联合分布,矩生成函数,中心极限定理,大数定律和马尔可夫不等式。

Probability&Statistics for Data Science

先修课:微积分。本课程包括以下主题:数据科学中使用的概率论和统计推断的基础;概率模型,随机变量,有用分布,期望,大数定律,中心极限定理;统计推断;点和置信区间估计,假设检验,线性回归。

Exploratory Data Analysis&Visualization

先修课:编程。该课程涉及数据可视化的基础知识,图形的分层语法,离散和连续变量的理解,Mondran介绍,mosaic pots,平行坐标图,ggobi介绍,linked pots,brushing,动态图形,模型可视化,聚类和分类。

Statistical Inference&Modeling

先修课:微积分和线性代数(向量和矩阵)以及STAT GR5203或同等学科。课程涵盖统计推断和测试的基础知识,并介绍统计建模。本课程的前半部分将侧重于推理和测试,涵盖最大似然估计,假设检验,似然比检验,贝叶斯推理等。本课程的后半部分将通过介绍性讲座介绍统计建模。线性回归模型,广义线性回归模型,非参数回归和统计计算。

-除了上述最硬核的计算机和统计学课程,项目设置了选修课程(要求3门):

转换生物信息学

计算机科学专题:机器学习的应用

计算机科学专题:数据科学的因果推论

计算机科学专题:数据科学要素:第一课

计算机科学专题:数据科学的机器学习产品

NLP:社会意义的计算模型

计算机科学专题:数据科学项目:第一课

信息处理主题:大数据分析

信息处理主题:计算机视觉,语音和语言的深度学习

数量金融专题:金融领域的大数据

现代统计学主题:金融建模和预测的机器学习应用

现代统计学主题:用于图像分析的机器学习应用

可持续发展技术与智慧城市的演变


关于我们 | 联系我们 | 招聘信息 | 版权申明 | 广告服务 | 联系我们 |

免责声明:本站为非营利性网站,部分图片或文章来源于互联网如果无意中对您的权益构成了侵犯,我们深表歉意,请您联系,我们立即删除。