在大多數組織中,資料科學專案通常由三種類型的經理監督:
業務管理者: 這些管理者會與資料科學團隊合作定義問題並開發分析策略。他們可能是行銷、財務或銷售等業務部門的負責人,有資料科學團隊向他們呈報。業務流程經理與資料科學和 IT 經理密切合作,確保專案按計畫交付。
IT 管理者: 資深 IT 管理者會負責支援資料科學作業的基礎架構和架構。他們不斷監控運作和資源利用率,確保資料科學團隊能高效且安全地運作。他們可能還要負責為資料科學團隊建置並更新 IT 環境。
資料科學管理者: 這些管理者會監控資料科學團隊及其日常工作。他們負責打造團隊,在團隊發展與專案規劃、監控等業務中取得平衡。
但是在此過程中最重要的一份子是資料科學家。
資料科學是門年輕的專業領域。其源自於統計分析和資料採礦。數據科學期刊 於 2002 年首次亮相,由國際科學理事會的科學和技術資料委員會出版。到了 2008 年,資料科學家的頭銜出現了,該領域也開始迅速成長。儘管有越來越多大學及學院開始成立資料科學學位,但資料科學家仍供不應求。
資料科學家的職責包括制定分析資料的策略、準備分析資料、探勘、分析並將資料視覺化、使用 Python 和 R 等程式語言建立資料模型,並將模型部署到應用程式中。
資料科學家無法只靠一己之力完成工作。其實最有效的數據科學分析要透過團隊完成。除了資料科學家之外,該團隊還可能包括定義問題的業務分析師、準備資料及相應存取方式的資料工程師、負責監督底層流程和基礎架構的 IT 架構師,以及將分析模型或輸出部署到應用程式和產品的應用程式開發人員。
儘管資料科學前景看好,也有公司斥巨資投資資料科學團隊,但許多公司還沒有完全發揮資料的價值。在招募人才及打造資料科學計劃的競賽中,有些公司遇到了團隊工作流程缺乏效率、不同的人員使用無法妥善配合的不同工具和流程等情況。如果沒有更嚴格、更集中地管理,高階主管可能無法看到他們的投資獲得完全的回報。
這樣混亂的環境帶來了許多挑戰。
資料科學家無法有效率地工作。 因為資料存取權必須由 IT 管理員提供,所以數據科學家經常得長時間等待資料以及分析資料所需資源到位。一旦他們有存取權,資料科學團隊可能會使用不同且可能不相容的工具來分析資料。比如科學家可能會使用 R 語言開發模型,但部署模型的應用程式卻是使用不同的語言撰寫的。這就是為什麼可能要耗時數週甚至數月,才能將模型部署到有用的應用程式中。
應用程式開發人員無法使用可用的機器學習模型。有時開發人員收到的機器學習模型根本還沒準備好部署至應用程式中。且由於存取點可能毫無彈性,所以無法在所有情況下部署模型,擴充性也留待應用程式開發人員處理。
IT 管理員耗費太多時間提供支援。由於開放原始碼工具激增,因此 IT 部門須支援的工具越來越多。比如行銷領域的資料科學家所使用的工具,可能不同於金融領域的資料科學家。團隊的工作流程可能也不同,意味著 IT 部門必須不斷重建及更新環境。
業務經理與資料科學脫節。資料科學工作流程不一定整合在業務決策制定程序及系統中,使得業務經理難以運用相關知識,有理有據地與資料科學家進行合作。如果沒有更完善的整合,業務經理將無法理解為什麼從建立原型到投入生產需要如此長的時間,也就不太可能支持對他們認為進展太慢的專案進行投資。
許多公司意識到如果沒有一個整合式平台,資料科學分析工作將缺乏效率,安全性也會很低且難以擴充。這樣的認知讓資料科學平台因此運應而生。這類平台是軟體中心,所有資料科學工作都在這個中心進行。良好的平台可以減輕實作資料科學分析時面臨的諸多挑戰,並能協助企業更快、更有效地將資料轉化為見解。
在集中管理的機器學習平台上,資料科學家可以用其喜愛的開放原始碼工具在協作環境中工作,所有的工作都由版本控制系統同步。
資料科學平台讓團隊可以共用程式碼、成果和報告,進而減少冗餘並推動創新。簡化管理並結合最佳實務做法,以消除工作流程中的瓶頸。
一般而言,最佳的資料科學平台旨在:
資料科學平台旨在供一系列使用者合作所打造,包括專業資料科學家、素人資料科學家、資料工程師和機器學習工程師或專家。例如資料科學平台可以讓資料科學家將模型部署為 API,進而輕鬆地將此模型整合至不同的應用程式中。數據科學家無需等待 IT 部門即可存取工具、資料和基礎架構。
對數據科學平台的需求在市場上呈現爆炸式成長。事實上,平台的市場預計將在未來幾年,以每年超過 39% 的複合年增長率成長,2025 年前有望達到 3850 億美元。
如果您準備好探索資料科學平台的功能,以下幾個關鍵功能值得注意:
選擇適合合作、以專案為基礎的 UI。您選擇的平台應該讓人能夠在從模型的概念構思到最終開發上,都能一起協作。應讓讓每個團隊成員獲得自行存取資料權限和資源。
優先考慮整合和彈性。確保該平台支援最新的開放原始碼工具與常見的版本控制平台,如 GitHub、GitLab 和 Bitbucket,並能與其他資源密切整合。
涵蓋企業級功能。隨著團隊不斷成長,應確保平台可隨業務擴充。該平台應具備有高可用性、完善的存取控制功能,並支援大量使用者同時使用。
讓資料科學自助化。尋找一個能夠減輕 IT 和工程部門負擔的平台,讓資料科學家能夠快速簡便地啟動環境、追蹤所有工作,並輕鬆地將模型部署到生產環境中。
確保更輕鬆的模型部署。模型部署和操作化是機器學習生命週期最重要的步驟之一,但常遭到忽視。確保您選擇的服務能更輕鬆地讓模型運作,無論是提供 API 或確保使用者以容易整合的方式建置模型。
如果您注意到以下情況,您的組織可能適合使用資料科學平台:
資料科學平台可以為您的業務帶來真正的價值。Oracle 的資料科學平台包括廣泛的服務,提供專為加速模型部署並改善資料科學結果所設計的完整端對端體驗。