什么是數(shù)據(jù)科學(xué)碩士?
乍一看,“數(shù)據(jù)科學(xué)”一詞可能有些令人生畏和困惑。不是所有的科學(xué)都使用數(shù)據(jù)嗎?像許多職業(yè)道路一樣,在你仔細(xì)研究數(shù)據(jù)科學(xué)之前,很難理解數(shù)據(jù)科學(xué)所涉及的內(nèi)容。例如,有數(shù)據(jù)科學(xué)背景可以解決什么樣的問(wèn)題?進(jìn)入數(shù)據(jù)科學(xué)職業(yè)需要哪些技能?為什么要學(xué)習(xí)數(shù)據(jù)科學(xué)?讓我們探索一下這些問(wèn)題的答案,以及不斷發(fā)展的數(shù)據(jù)科學(xué)領(lǐng)域背后的理論。
面向初學(xué)者的數(shù)據(jù)科學(xué)
由于該領(lǐng)域的復(fù)雜性,簡(jiǎn)單的數(shù)據(jù)科學(xué)定義可能不是很有啟發(fā)性。簡(jiǎn)而言之,數(shù)據(jù)科學(xué)涉及使用統(tǒng)計(jì)分析來(lái)研究和分類大量原始數(shù)據(jù)。排序數(shù)據(jù)使我們能夠從中汲取意義,并將其轉(zhuǎn)換為易于理解的圖形圖表,使非技術(shù)受眾可以訪問(wèn)它。
但是,為什么要一開(kāi)始就對(duì)數(shù)據(jù)進(jìn)行排序呢?著名知識(shí)分子諾姆•喬姆斯基(Noam Chomsky)在談到互聯(lián)網(wǎng)研究主題時(shí)曾簡(jiǎn)潔地描述了這個(gè)問(wèn)題。他指出了使用互聯(lián)網(wǎng)進(jìn)行研究的價(jià)值——但前提是你知道自己在尋找什么:
“如果你有一個(gè)理解框架,引導(dǎo)你做特定的事情,而把許多其他事情放在一邊——那么這可能是一個(gè)有價(jià)值的工具。當(dāng)然,你總是要問(wèn)自己,'我的框架是正確的嗎?也許你需要不時(shí)修改它。
同樣的問(wèn)題幾乎存在于任何分析職業(yè)中,包括作為數(shù)據(jù)科學(xué)家的道路。處理原始數(shù)據(jù)的挑戰(zhàn)在于,您需要想象力才能將其轉(zhuǎn)化為比數(shù)字本身顯示的更大的東西。數(shù)據(jù)涉及分析收斂系統(tǒng),類似于研究經(jīng)濟(jì)學(xué)、商業(yè)、社會(huì)學(xué)或心理學(xué)。
數(shù)據(jù)科學(xué)家還需要學(xué)習(xí)使用“非結(jié)構(gòu)化數(shù)據(jù)”;不容易放入簡(jiǎn)單表格的內(nèi)容。例如,社交媒體帖子或在線客戶評(píng)論的內(nèi)容。因?yàn)樗幌裼涗洈?shù)字那么簡(jiǎn)單,所以它需要你自己開(kāi)發(fā)的洞察力來(lái)操作非結(jié)構(gòu)化數(shù)據(jù)。你需要一些技術(shù)和非技術(shù)技能來(lái)實(shí)現(xiàn)這一目標(biāo)。
數(shù)據(jù)科學(xué)的用途是什么?
互聯(lián)網(wǎng)使收集大量信息變得容易。事實(shí)上,人類收集和存儲(chǔ)的數(shù)據(jù)比以往任何時(shí)候都多。一項(xiàng)估計(jì)表明,每天創(chuàng)建2.5萬(wàn)億字節(jié)的數(shù)據(jù),隨著網(wǎng)絡(luò)連接到達(dá)越來(lái)越多的設(shè)備,這一增長(zhǎng)速度只會(huì)加速。
但未經(jīng)分類的原始數(shù)據(jù)是毫無(wú)意義的信息。獲取和分析數(shù)據(jù)需要您確定哪些部分是相關(guān)的,哪些是不相關(guān)的,并且該過(guò)程將原始數(shù)字轉(zhuǎn)換為可操作的信息。在實(shí)踐中,這可能意味著為營(yíng)銷公司找到新的方法來(lái)接觸受眾,為保險(xiǎn)公司創(chuàng)建更準(zhǔn)確的保單模型,等等。
數(shù)據(jù)科學(xué)通過(guò)許多技術(shù)和子領(lǐng)域?qū)崿F(xiàn)這些目標(biāo)。例如,數(shù)據(jù)挖掘涉及在數(shù)據(jù)中查找模式,以幫助預(yù)測(cè)未來(lái)結(jié)果。它是機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和大數(shù)據(jù)的重疊交集。它可以應(yīng)用于無(wú)數(shù)目的,從削減成本到尋找改善客戶關(guān)系的新方法。
數(shù)據(jù)建模涉及找出在數(shù)據(jù)庫(kù)中存儲(chǔ)數(shù)據(jù)的最合乎邏輯的方式。由于不同的人需要管理和編輯數(shù)據(jù),因此數(shù)據(jù)的相關(guān)性可能因用戶而異。您的數(shù)據(jù)庫(kù)可能還需要與其他信息系統(tǒng)進(jìn)行交互。這種建模對(duì)于規(guī)劃和與那些從不直接處理數(shù)據(jù)的人進(jìn)行溝通至關(guān)重要。
另一個(gè)需要考慮的因素是,幾乎任何時(shí)候存在大量數(shù)據(jù),都會(huì)隨之而來(lái)的是隱私問(wèn)題。在許多情況下,了解如何存儲(chǔ)和處理大量數(shù)據(jù)可能很有價(jià)值,出于各種安全原因,這可能使數(shù)據(jù)管理變得特別重要。但是,進(jìn)入這類職業(yè)需要什么樣的技能呢?
數(shù)據(jù)科學(xué)技能
那些計(jì)劃進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域的人將希望磨練與這條嶄露頭角的職業(yè)道路相關(guān)的各種硬技能:
• 計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)/數(shù)據(jù)方法論:大多數(shù)數(shù)據(jù)科學(xué)職業(yè)將取決于計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)的背景。數(shù)據(jù)科學(xué)家使用分類數(shù)據(jù)方法來(lái)定期解決問(wèn)題。在這個(gè)領(lǐng)域工作的人需要學(xué)習(xí)機(jī)器學(xué)習(xí)和人工智能的基本知識(shí),以及幾種編程語(yǔ)言,如R編程、Python、Apache Spark和SQL數(shù)據(jù)庫(kù)編碼。根據(jù)數(shù)據(jù),數(shù)據(jù)科學(xué)家可能還需要使用多個(gè)應(yīng)用程序來(lái)幫助映射其結(jié)果。
• 數(shù)據(jù)可視化:數(shù)據(jù)科學(xué)職業(yè)通常依賴于對(duì)數(shù)據(jù)可視化的學(xué)習(xí),因此您可以將數(shù)據(jù)轉(zhuǎn)換為非技術(shù)受眾可觀的內(nèi)容。如果您的工作是通過(guò)查看大數(shù)據(jù)來(lái)尋找?guī)椭髽I(yè)的方法,那么這將有助于更好地了解企業(yè)的運(yùn)營(yíng)方式。如果你正在解釋和建模人類數(shù)據(jù),那么更好地了解心理學(xué)對(duì)你的成功至關(guān)重要。
除了硬技能之外,還有許多重要的軟技能,包括天生的好奇心、協(xié)作性和對(duì)細(xì)節(jié)的關(guān)注。1999年9月,火星氣候軌道飛行器因公制和英制測(cè)量系統(tǒng)之間的轉(zhuǎn)換錯(cuò)誤而墜毀在火星表面。這些是當(dāng)大量人員在一個(gè)復(fù)雜的項(xiàng)目上一起工作時(shí)發(fā)生的事件,并且團(tuán)隊(duì)中的單個(gè)成員誤解了正在發(fā)生的事情。
由 8-15 名數(shù)據(jù)科學(xué)家組成的團(tuán)隊(duì)創(chuàng)建單個(gè)電子表格或兩個(gè)數(shù)據(jù)科學(xué)家團(tuán)隊(duì)處理重疊問(wèn)題的情況并不少見(jiàn)。當(dāng)團(tuán)隊(duì)中不同成員的數(shù)據(jù)驅(qū)動(dòng)交互之間發(fā)生溝通不暢時(shí),結(jié)果可能對(duì)每個(gè)人都不利。簡(jiǎn)而言之,團(tuán)隊(duì)合作和溝通將是幾乎任何數(shù)據(jù)科學(xué)職業(yè)的基本技能。
數(shù)據(jù)科學(xué)課程
在本科階段,準(zhǔn)備進(jìn)入數(shù)據(jù)科學(xué)的人可能會(huì)參加以下課程:
• 統(tǒng)計(jì) 135.統(tǒng)計(jì)的概念
• COMPSCI 186 或 W186。數(shù)據(jù)庫(kù)系統(tǒng)簡(jiǎn)介
• COMPSCI 189.機(jī)器學(xué)習(xí)簡(jiǎn)介
• STAT 102 數(shù)據(jù)、推理和決策
• 信息 159.自然語(yǔ)言處理
• 統(tǒng)計(jì) 158.實(shí)驗(yàn)的設(shè)計(jì)與分析
但是,您可以在許多不同類型的程序中獲得這些技能。數(shù)據(jù)科學(xué)課程的重要性在研究生階段變得更加重要。對(duì)于高級(jí)學(xué)位,數(shù)據(jù)科學(xué)課程可能包括:
• ANA 600 分析基礎(chǔ)
• ANA 605 分析模型和數(shù)據(jù)系統(tǒng)
• ANA 610 用于分析的數(shù)據(jù)管理
• ANA 615 數(shù)據(jù)挖掘技術(shù)
• ANA 620 連續(xù)數(shù)據(jù)方法,應(yīng)用
• ANA 625 分類數(shù)據(jù)方法,應(yīng)用
• ANA 630 高級(jí)分析應(yīng)用
國(guó)立大學(xué)獨(dú)特的數(shù)據(jù)科學(xué)課程可以通過(guò)以下課程進(jìn)一步專業(yè)化您的教育:
• BAN 650 概率金融模型
• BAN 655 分析安全與道德
• ANA 655 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與開(kāi)發(fā)
• ANH 604 臨床研究分析
• ANH 607 健康結(jié)果研究
為什么選擇數(shù)據(jù)科學(xué)?
由于這類職位需要如此多不同水平的專業(yè)知識(shí),因此數(shù)據(jù)科學(xué)工作往往具有非常有益的薪水。美國(guó)勞工統(tǒng)計(jì)局估計(jì),這些職業(yè)的平均工資為每年 122,840 美元。Glassdoor提供的數(shù)字略低,為每年113,309美元。
一些廣泛的知識(shí)和經(jīng)驗(yàn)要求使數(shù)據(jù)科學(xué)家的需求量很大。美國(guó)勞工統(tǒng)計(jì)局還估計(jì),未來(lái)十年計(jì)算機(jī)和信息研究科學(xué)家的預(yù)期行業(yè)增長(zhǎng)將達(dá)到15%,遠(yuǎn)遠(yuǎn)高于所有職業(yè)的平均水平。這些職位的經(jīng)驗(yàn),尤其是與研究生學(xué)位配對(duì)時(shí),為職業(yè)發(fā)展提供了豐富的機(jī)會(huì)。
撇開(kāi)財(cái)務(wù)原因不談,數(shù)據(jù)科學(xué)有很多吸引人的地方。它總是可以提供一個(gè)新的和獨(dú)特的挑戰(zhàn)來(lái)解決。由于幾乎每個(gè)行業(yè)都在收集數(shù)據(jù),數(shù)據(jù)科學(xué)家有機(jī)會(huì)在各種不同的領(lǐng)域工作,并在離開(kāi)正規(guī)教育后很長(zhǎng)時(shí)間繼續(xù)學(xué)習(xí)新事物。在好奇心中茁壯成長(zhǎng)的人也可能欣賞與其他學(xué)術(shù)領(lǐng)域的相互聯(lián)系。