干貨 :送你12個關于數(shù)據(jù)科學學習的關鍵提示(附鏈接)
小結: 數(shù)據(jù)科學家需要強大的數(shù)學和編碼能力,但溝通能力和其它軟技能也是走向成功不可缺少的基本功。
根據(jù)Glassdoor在美國區(qū)的統(tǒng)計,“數(shù)據(jù)科學家”排名為2019年最誘人的工作。平均基礎工資為$108k,工作滿意度為4.3–5★,加上被預測有大量空缺,這個結果一點都不令人吃驚。
問題是,一個人該如何修煉才能走上正軌并獲得勝任這份工作的資格?
為了找到答案,我們總結了大量文章里的建議,很多可以歸納為編碼與數(shù)學上的硬技能(hard skills)。但強大的計算能力并不是全部。一名優(yōu)秀的數(shù)據(jù)科學家仍需要和相關業(yè)務人員進行有效溝通,這里便需要一些軟技能(soft skills)。
鑄造你的教育地基:3個要點
Drace Zhan作為 NYC Data Science Academy 的數(shù)據(jù)科學家,強調了教育基礎的必要性,包括編碼基礎和數(shù)學能力:
- NYC Data Science Academy:https://nycdatascience.com/
R/Python + SQL。如果你沒有編碼能力,那你就需要大量的網絡等其它領域的力量來補充這個缺陷。我見到過一些數(shù)據(jù)科學家,有的數(shù)學能力比較薄弱,或者對相關領域欠缺經驗,但他們總有很強的編碼能力。Python是很理想,R正在變得有點落后,***兩樣武器都帶上。SQL對于數(shù)據(jù)分析師來說同樣極其重要。
- R/Python + SQL:https://www.techopedia.com/definition/3533/python
強大的數(shù)學能力。對一些常用的理論有著較好的理解:generalized linear models(廣義線性模型),decision tree(決策樹),K-means(聚類分析)和statistical tests(假設檢驗)。這好過手握大量模型甚至專業(yè)模型如遞歸神經網絡(RNN),卻僅僅是淺嘗輒止。
- decision tree:https://www.techopedia.com/definition/28634/decision-tree
- K-means:https://www.techopedia.com/definition/32057/k-means-clustering
這些都是需要培養(yǎng)的核心技能,盡管一些專家還加入了其它東西。例如,一份 KDnuggests 清單包含了編碼成分,Zhan在此基礎上還加入了一些其他有用的東西,包括Hadoop平臺,Apache Spark,數(shù)據(jù)可視化,非結構化數(shù)據(jù),機器學習和AI。
- Apache Spark:https://www.techopedia.com/definition/30113/apache-spark
但如果我們從一份Kaggle調研中尋求線索,關于“那些在實際生活中被使用的最普遍的工具”,我們會有不同的發(fā)現(xiàn)。下面這張圖是名列前15的硬技能。
Python,R和SQL排在前三,第四名是 Jupyter notebooks,接下來是 TensorFlow,Amazon Web Services,Unix shell,Tableau,C/C++,NoSQL,MATLAB/Octave和Java,都排在Hadoop和Spark前面。頗讓人意外的是,Microsoft’s Excel Data Mining也被列進來了。
- TensorFlow:https://www.techopedia.com/definition/32862/tensorflow
- Amazon Web Services:https://www.techopedia.com/definition/26426/amazon-web-services-aws
- Unix:https://www.techopedia.com/definition/4637/unix
- C++:https://www.techopedia.com/definition/26184/c-programming-language
- NoSQL:https://www.techopedia.com/definition/27689/nosql-database
- Java:https://www.techopedia.com/definition/3927/java
- https://www.kaggle.com/surveys/2017
在KDnuggests清單中也包括了關于正規(guī)教育的建議。大多數(shù)據(jù)科學家都擁有高學歷,46%是博士,88%的人擁有至少碩士學位。他們的本科學位通常是相關領域。大約1/3是數(shù)學和統(tǒng)計學,這也是***的職業(yè)軌跡。接下來***的是計算機科學學位,占有19%,工程學16%。當然專門針對數(shù)據(jù)科學的技術工具通常不會設在大學課程中,但是可以通過專門的訓練營或在線課程習得。
課程之外:2個要點
Hank Yun是威爾康奈爾醫(yī)學院肺科的一名助理研究員,同時也是NYC數(shù)據(jù)科學學院的學生。他建議有抱負的數(shù)據(jù)科學家圍繞他們將要從事的工作進行計劃,并找到一位導師。
- Hank Yun:https://medium.com/@jhaseon
他說:“不要犯我曾經犯過的錯誤。那時我對自己說,我知道數(shù)據(jù)科學,因為我參加了課程并獲得了證書。”這確實是個不錯的開始,但當你開始學的時候,腦海中要有一個計劃。然后在該領域中找到一名導師,并立刻開始一個令你充滿激情的項目。
當你還是個新手,你不知道你不知道什么。所以如果有個人指導你前行,告訴你,什么是對于現(xiàn)在的你最重要的,什么不是,這將很有幫助。別把時間扔在學習那些***根本無法施展的東西!
知道從你的工具包里取出哪樣工具:保持領先的要點
由于數(shù)據(jù)科學工具的排名不盡相同,有人可能會困惑,到底該把精力集中在哪些上面。Celeste Fralick是McAfee軟件安全公司的***數(shù)據(jù)科學家。他在CIO article上強調了這個問題:“一名數(shù)據(jù)科學家需要處在調查曲線的前端,但別忘了去明白,什么技術該什么時候用。” 這句話意思是,別被新鮮與性感的外表蠱惑,而實際問題需要更多工作。意識到對于生態(tài)系統(tǒng)的計算成本,可解釋性,延遲,帶寬,和其它系統(tǒng)邊界條件,還有客戶的到期時間,它本身就能幫助數(shù)據(jù)科學家知道,使用什么技術最合適。
- CIO article:https://www.cio.com/article/3263790/data-science/the-essential-skills-and-traits-of-an-expert-data-scientist.html
基本軟技能:另外6個要點
Fralick提到了數(shù)據(jù)科學工作需要的非技術性技能。這也是為什么KDnuggests清單包括了這4項:求知欲,團隊合作,溝通技巧和商業(yè)頭腦。Zhan給列出的清單中也包含了一些關鍵的軟技能,如 “有效溝通能力”,“領域經驗” 與上面的 “商業(yè)頭腦” 類似。總之,都是指將數(shù)據(jù)科學實際應用到商業(yè)中。
Olivia Parr-Rud提供了她自己的想法,又加入了另外2項軟技能:創(chuàng)新,勇于堅持。她說:“我認為數(shù)據(jù)科學是科學也是藝術。它需要利用大腦兩側的力量。很多人談及數(shù)據(jù)科學,說它主要使用左腦。但我發(fā)現(xiàn),想要成功,數(shù)據(jù)科學家就得充分調用他們的全腦。”
她解釋道,在該領域前行,不僅需要技術能力,還要有創(chuàng)造性和領導性遠見。
大多數(shù)左腦/線性任務可以被自動化或外包。為了提供身為一名數(shù)據(jù)科學家的競爭優(yōu)勢,我們必須能識別大量信息中的模式(patterns)和綜合性(synthesize),也就要用到左右腦。我們必須是有創(chuàng)造力的思考者。很多優(yōu)秀的結論都是來自于左右腦的協(xié)同工作。
她還強調為什么清晰地表達遠見是基本的:
- “作為數(shù)據(jù)科學家,我們的目標是幫助客戶增長利潤。大多數(shù)主管不理解我們是做什么的,我們是如何去做的。所以我們需要像***一樣去思考,以股東們可以理解和信任的方式,表達我們的發(fā)現(xiàn)與建議。”
總結
這個提示單里包含大量地技術工具,技能,和能力,還有可量化的品質,像創(chuàng)造力,領導力。數(shù)據(jù)科學不僅僅是個數(shù)字游戲。數(shù)據(jù)科學家也不是在虛空中建模,而是要能提出實用的,能解決商業(yè)中實際問題的灼見。那些可以在該領域中獲得成功的人,不僅僅精通技術,還能理解工作中團隊各成員的需求。
譯者簡介:國相潔,馬德里自治大學本科,經濟與金融專業(yè)。從數(shù)據(jù)分析師起步,夢想成為一名優(yōu)秀的數(shù)據(jù)科學家。希望在成長的路上,結交志趣相投的朋友,不負青春。
































