什麼是數據科學?

數據科學領域橫跨多個學科,利用各種科學方法、流程、演算法及系統從資料中萃取出價值。 數據科學家將一系列技術(包括統計、電腦科學和商業知識)結合起來,分析從網路、智慧型手機、客戶、感測器和其他來源收集的資訊。

數據科學讓我們看到趨勢,並為企業提供見解,協助企業做出更好的決策,並創造更多創新產品和服務。 資訊是創新的基石,但其價值來自於科學家從中收集並據此採取行動的資訊。

 

為數據科學家打造的工具

數據科學家使用多種類型的工具,但其中最常見的是開源筆記本,就是用於編寫及運行代碼、將資料視覺化、可以查看結果的網路應用程式,上述一切都發生在同一個環境裡。 最流行的筆記本包括 Jupyter、RStudio 和 Zeppelin。 筆記本在分析時非常有用,但若數據科學家需要進行團隊合作時,確實會有所限制。 數據科學平台的出現解決了這個問題。

數據科學與資料增長

數據科學與資料增長

隨著現代技術能創造並儲存越來越多的資訊,資料量已經在不斷飆升當中。 據估計,全球有 90% 的資料是在過去兩年中創造出來的。 例如 Facebook 的使用者每小時會上傳 1000 萬張照片。 物聯網 (IoT) 的全球連接設備總量,預計將在 2025 年前突破 750 億

這些由技術收集和儲存的大量資料,可以為世界各地的組織和社會帶來革命性的好處,但前提是我們懂得如何解釋這些資料。 這便是數據科學派上用場的時候了。

查看此資訊圖表,深入了解資料和數據科學的相關資訊。

數據科學家的崛起

數據科學家的崛起

數據科學是門年輕的專業領域。 其源自於統計分析和資料探勘。 數據科學期刊 於 2002 年首次亮相,由國際科學理事會的科學和技術資料委員會出版。 到了 2008 年,數據科學家的頭銜出現了,該領域也開始迅速成長。 儘管有越來越多大學及學院開始成立數據科學學位,但數據科學家一直不多。

數據科學家的職責包括制定分析資料的策略、準備分析資料、探勘、分析並將資料視覺化、使用 Python 和 R 等程式語言建立資料模型,並將模型部署到應用程式中。

數據科學家無法只靠一己之力完成工作。 其實最有效的數據科學分析要透過團隊完成。 除了數據科學家之外,該團隊還可能包括定義問題的業務分析師、準備資料及相應存取方式的數據工程師、負責監督底層流程和基礎架構的 IT 架構師,以及將分析模型或輸出部署到應用程式和產品的應用程式開發人員。

數據科學如何推動業務轉型

許多組織正透過數據科學團隊改善產品和服務,將資料轉化為競爭優勢。 比如有些公司會分析從呼叫中心收集的資料,藉此識別可能流失的客戶,讓行銷部門可以採取相關措施,留住這些客戶。 物流公司會分析交通模式、天氣狀況和其他因素,以提高交貨速度並降低成本。 醫療公司則分析醫療測試資料並回報症狀,協助醫生更早診斷出疾病並更有效地治療。

大多數公司都視數據科學為首要任務,並斥巨資投資此領域。 在 Gartner 近期對超過 3,000 名資訊長進行的 兩項調查中,受訪者將分析和商業智慧視為最能使組織脫穎而出的技術。 接受調查的資訊長認為這類技術對他們的公司來說是最具策略意義的,最新的投資大部分都落在這個領域。

如何進行數據科學分析

如何進行數據科學分析

分析和處理資料的過程是迭代的而非線性的,但常見的資料模型建立專案工作流程便是像這樣的:

  • 計畫: 定義專案及其可能的產出
  • 準備: 打造工作環境,確保數據科學家有正確的工具、正確的存取數據,並能使用計算能力等其他資源
  • 擷取: 將資料加載至工作環境中
  • 探索: 分析、探勘並將資料視覺化
  • 建立模型: 建立、訓練並驗證模型,讓模型按需求發揮功效
  • 部屬: 將模型部署到生產過程中

誰來監督數據科學分析過程?

誰來監督數據科學分析過程?

數據科學分析過程通常由三種經理監管:

  • 業務經理 這類經理與數據科學團隊合作,定義問題並製定分析策略。 他們可能是行銷、財務或銷售等業務部門的負責人,有數據科學團隊向他們呈報。 業務流程經理與數據科學和 IT 經理密切合作,確保專案按計畫交付。
  • IT 經理 資深 IT 經理負責規劃並搭建進行數據科學分析的基礎設施。 他們不斷監控營運和資源利用狀況,確保數據科學團隊能高效且安全地運作。 他們可能還要負責為數據科學團隊建構並更新環境。
  • 數據科學經理: 這類經理負責監督數據科學團隊及其日常工作。 他們負責打造團隊,在團隊發展與專案規劃、監控等業務中取得平衡。

部署數據科學的挑戰

儘管數據科學前景看好,也有公司斥巨資投資數據科學團隊,但許多公司還沒有完全發揮資料的價值。 在招募人才及打造數據科學計劃的競賽中,有些公司經歷了團隊合作流程缺乏效率、不同的人使用不同工具、按照不同流程且無法好好合作的過程。 如果沒有更嚴格、更集中的管理,高階主管可能無法看到他們的投資得到全額的回報。 這樣混亂的環境帶來了許多挑戰。

數據科學家無法有效地工作。 因為資料存取權必須由 IT 管理員提供,所以數據科學家經常得長時間等待資料以及分析資料所需資源到位。 一旦他們有權存取資料,團隊內可能又會使用不同且可能不兼容的工具來分析資料。 比如科學家可能會使用 R 語言開發模型,但部署模型的應用程式卻是使用不同的語言編寫的。 這就是為什麼可能要耗時數週甚至數月,才能將模型部署到有用的應用程式中。

應用程式開發人員無法使用可用的機器學習模型。 有時開發人員收到的機器學習模型必須重新編碼,或者根本還沒準備好部署至應用程式中。 且由於接入點可能不太靈活,所以無法在所有情況下部署模型,擴充問題也留給應用程式開發人員處理。

IT 管理人員耗費太多時間提供支援。 由於開源工具的激增,IT 部門須支援的工具越來越多。 比如市場行銷領域的數據科學家使用的工具,可能不同於金融領域的數據科學家。 團隊的工作流程可能也不同,意味著 IT 部門必須不斷重建及更新環境。

業務經理與數據科學脫節。 數據科學的工作流程並不總是與業務決策流程和系統相配合,這讓業務經理很難與數據科學家交換資訊、進行合作。 如果不好好的整合流程,業務經理將無法理解為什麼從打造產品原型到生產需要這麼長的時間,而且他們不太可能支持投資耗時太長的專案。

數據科學平台的崛起

數據科學平台的崛起

許多公司意識到如果沒有一個整合式平台,數據科學分析工作將缺乏效率,安全性也會很低且難以擴充。 這樣的認知讓數據科學平台因此誕生。 這類平台是軟體中心,所有數據科學工作都在這個中心進行。 好的平台可以緩解進行數據科學分析時面臨的諸多挑戰,並能協助企業更快、更有效地將資料轉化為洞察力。

在集中式平台上,數據科學家可以用他們喜歡的開源工具在協作環境中工作,所有的工作果都由版本控制系統同步。

藉由自給自足的數據科學平台發揮影響力。

採用數據科學平台的好處

採用數據科學平台的好處

數據科學平台讓團隊可以共享代碼、成果和分析報告,從而減少多餘的步驟並推動創新。 平台簡化了管理流程並使用開源工具、框架和基礎架構,解決了工作流程中的瓶頸。

例如數據科學平台可以讓數據科學家將模型部署為 API,從而輕鬆地將此模型整合至不同的應用程式中。 數據科學家無需等待 IT 部門即可存取工具、資料和基礎架構。

對數據科學平台的需求在市場上呈現爆炸式成長。 事實上,平台的市場預計 將在未來幾年,以每年超過 39% 的複合年增長率成長,2025 年前有望達到 3850 億美元。

如果您準備好探索數據科學平台的功能,以下幾個關鍵功能值得注意:

  • 選擇適合合作、以專案為基礎的 UI。 . 您選擇的平台應該讓人能夠在從模型的概念構思到最終開發上,都能一起協作。 應讓讓每個團隊成員獲得自行存取資料權限和資源。
  • 優先考慮整合和靈活性。 確保該平台支援最新的開源工具與常見的版本控制平台,如GitHub、GitLab 和 Bitbucket,並能與其他資源密切整合。
  • 涵蓋企業級功能。 隨著團隊不斷成長,應確保平台可隨業務擴充。 該平台應具備有高可用性、完善的存取控制功能,並支援大量使用者同時使用。
  • 讓數據科學自助化。 尋找一個能夠減輕 IT 和工程部門負擔的平台,讓數據科學家能夠快速簡便地啟動環境、追蹤所有工作,並輕鬆地將模型部署到生產環境中。

努力尋找數據科學人才的公司

尋找和招募人才是公司希望利用數據科學取得競爭優勢時,所面臨的最大阻礙。 在麥肯錫& 公司最近一份調查中,遍布全球、位於各大產業的高階主管中,有一半皆表示招募分析人才較招募其他人才難上許多。 還有 40%的受訪者表示怎麼留住這些人才也是問題。

除了數據科學家外,麥肯錫還指出其他類型的分析人才也在短缺中。 尤其缺乏的是能運用數據科學分析業務問題及擅長資料視覺化的專業人才。

Indeed.com、Glassdoor 和彭博社都進一步證明了企業對數據科學人才的需求十分龐大:

  • 據彭博社報導,2015 年 1 月到 2018 年 1 月間,Indeed.com 上徵求數據科學家的職缺多了 75%。數據科學家職位的搜索次數則提高了 65%。
  • 據 Glassdoor 估計,2018 年對數據科學家的需求超過了供給量的 50%。
  • Glassdoor 連續第三年將數據科學家評為美國最佳工作。

人工智慧學習程式庫

什麼是人工智慧?
深入了解人工智慧

人工智慧 (AI) 讓技術與機器能處理資料,藉此學習、進化並執行人類的工作。

深入了解機器學習
深入了解機器學習

機器學習是人工智慧 (AI) 的一種,著重於建立能從資料中學習的系統,以實現自動化並縮短決策所需時間、加速轉換價值的過程。

新聞與評論
新聞與評論

機器學習、人工智慧及數據科學正在改變企業解決複雜問題的方式,轉換相關產業的發展方向。 閱讀最新文章,了解您的產業與同行如何運用這些技術。