找不到任何結果

您的搜尋未與任何結果相符。

以下操作有助您找到所需內容,建議您不妨一試:

  • 檢查您關鍵字搜尋的拼字是否正確。
  • 改用您所輸入關鍵字的同義詞,例如以「應用軟體」取代「軟體」。“”“”
  • 嘗試下列其中一項熱門搜尋。
  • 開始新的搜尋。
常見問題

什麼是資料科學?

資料科學橫跨多個領域,包括統計、科學方法、人工智慧 (AI) 和資料分析,目的在於從資料中發現價值。實作資料科學的人員稱為資料科學家。他們會搭配運用一系列的技能,分析從網路、智慧型手機、客戶、感應器和其他來源收集到的資料,並從中獲取可行的見解。

「準備資料以進行分析」是資料科學的環節之一,過程涉及清理、彙總及處理資料,以利執行進階資料分析。接著,分析應用程式和資料科學家便能檢閱結果以找出固定模式,進而幫助企業領導者從中獲得明智的見解。

資料科學:尚待開發的機器學習資源

資料科學是現今最激勵人心的領域之一。但資料科學為何重要?

因為眾多公司坐擁資料寶庫。隨著現代技術創造並儲存越來越多的資訊,資料量已經爆炸性成長。據估計,全球有 90% 的資料是在過去兩年中創造出來的。例如 Facebook 的使用者每小時會上傳 1000 萬張照片。

但這些資料通常只是靜置在資料庫和資料湖中,多半沒有動過。

這些由技術收集和儲存的大量資料,可以為世界各地的組織和社會帶來革命性的好處,但前提是我們懂得如何解釋這些資料。這便是資料科學派上用場的時候了。

資料科學讓我們看到趨勢,並為企業提供見解,協助企業做出更好的決策,並創造更多創新產品和服務。或許最重要的是,資料科學可讓機器學習 (ML) 模型從送入這些模型中的大量資料來學習,而不是主要依賴業務分析師來了解他們可以從資料中發現什麼。

資訊是創新的基石,但其價值來自於科學家從中收集並據此採取行動的資訊。

資料科學、人工智慧和機器學習之間有何差異?

若要進一步了解資料科學 (以及如何對其加以利用),也同樣務必認識與此領域相關的其他術語,例如人工智慧 (AI) 和機器學習。您通常會發現這些術語可互換使用,但是仍有細微差異。

以下是簡易的細分:

  • AI表示透過某種方式讓電腦模仿人類行為。
  • 資料科學AI 的子集合,更多指的是統計學、科學方法和資料分析等重疊的領域 — 這些領域全都用於擷取資料中的意涵與見解。
  • 機器學習是 AI 的另一個子集合,集結各種可讓電腦透過資料理解事物並提供 AI 應用程式的技術。
    此外,我們又加入其他定義做為補充。
  • 深度學習屬於機器學習的子集合,可讓電腦解決更複雜的問題。

資料科學如何推動業務轉型

許多組織正透過資料科學改善產品和服務,將資料轉化為競爭優勢。資料科學和機器學習使用案例包括:

  • 透過分析從客服中心升級的資料判斷客戶流失率,以便行銷部門採取行動來留住客戶
  • 透過分析交通模式、天氣狀況和其他因素的方式來提升效率,以便物流公司提高交貨速度並降低成本
  • 透過分析醫學檢驗資料和報告的症狀的方式提升病患診斷結果,以便醫師更早診斷出疾病並有效地治療疾病
  • 預測設備何時故障,藉以打造最佳的供應鏈
  • 便是可疑行為和異常動作,察覺金融服務詐騙
  • 根據之前的購買項目建立客戶的推薦清單,藉以提升銷售量

許多公司都視資料科學為首要任務,並斥巨資投資此領域。在 Gartner 近期對超過 3,000 名資訊長進行的兩項問卷調查中,受訪者將分析和商業智慧列為使其組織脫穎而出的最主要技術。接受問卷調查的資訊長皆認為上述技術是其公司最具策略意義的關鍵技術,並據此進行投資。

如何進行資料科學分析

資料的分析及處理程序是迭代過程,而不是線性過程,但這正是資料建模專案的資料科學生命週期一般會經歷的流程:

規劃: 定義專案及其可能的成果。

建置資料模型: 資料科學家經常使用各種開放原始碼程式庫或資料庫內工具,來建置機器學習模型。使用者常會想要 API 協助進行資料擷取、資料概述和視覺效果或功能工程。他們將需要的合適的工具和正確工具及其他資源 (如運算力) 的存取權。

評估模型: 資料科學佳必須在有信心部署前讓模型達到高準確性。模型評估作業一般會產生完整的評估指標和視覺效果套件,以對照新資料衡量模型效能並隨著時間進行評比,以在生產中達到最佳行為。除了原始效能之外,模型評估還將考慮預期的基準線行為。

模型說明: 雖然不一定都能從人類的角度說明機器學習模型結果的內部機制,但這樣做變得愈發重要。資料科學家想要以自動化的方式說明產生預測之因素的相對權重和重要性,以及對於模型預測的特定模型說明詳細資料。

部署模型: 採用經過訓練的機器學習並將其將入合適的系統中,經常是困難又費力的流程。讓模型如可擴充的安全 API 運作,或使用資料庫內機器學習模型,即可更容易達成此目標。

監控模型: 不幸的是,模型部署並非最後的工作。部署後必須隨時監控模型,以確保模型正確運作。用於訓練模型的資料在一段時間後可能不再與未來的預測相關。例如,在詐騙偵測中,罪犯總是會設想新方法來駭入帳戶。

為資料科學家打造的工具

建置、評估、部署和監控機器學習模型會是繁雜的流程。這就是資料科學工具的數量有所增加的原因。資料科學家會使用多種類型的工具,但其中最常見的是開放原始碼筆記本,也就是用於撰寫和執行程式碼、將資料視覺化、可以查看結果的網路應用程式,上述一切都發生在同一個環境裡。

最流行的筆記本包括 Jupyter、RStudio 和 Zeppelin。筆記本在分析時非常有用,但若資料科學家需要進行團隊合作時,確實會有所限制。資料科學平台即是為了解決此問題所建置。

為了判斷哪項資料科學工具適用於您,應詢問以下問題:您的資料科學家使用哪種語言?他們喜歡哪種工作方法?他們使用哪種資料來源?

例如,某些使用者偏好使用無關資料來源的服務,而此類服務使用開放原始碼程式庫。他人則偏好資料庫內部機器學習演算法的速度。

誰來監督資料科學分析過程?

在大多數組織中,資料科學專案通常由三種類型的經理監督:

業務經理: 這類經理會與資料科學團隊合作定義問題,並制訂分析策略。他們可能是行銷、財務或銷售等業務部門的負責人,有資料科學團隊向他們呈報。業務流程經理與資料科學和 IT 經理密切合作,確保專案按計畫交付。

IT 經理: 資深 IT 經理負責將支援資料科學運作的基礎架構和架構。他們不斷監控運作和資源利用率,確保資料科學團隊能高效且安全地運作。他們可能還要負責為資料科學團隊建置並更新 IT 環境。

資料科學經理: 這類經理負責監督數據科學團隊及其日常工作。他們負責打造團隊,在團隊發展與專案規劃、監控等業務中取得平衡。

但是在此過程中最重要的一份子是資料科學家。

什麼是資料科學家?

資料科學是門年輕的專業領域。其源自於統計分析和資料採礦。資料科學期刊 (The Data Science Journal) 於 2002 年首次發行,由國際科學理事會的科學與技術資料委員會 (International Council for Science:Committee on Data for Science and Technology) 出版。到了 2008 年,資料科學家的頭銜出現了,該領域也開始迅速成長。儘管有越來越多大學及學院開始成立資料科學學位,但資料科學家仍供不應求。

資料科學家的職責可能包括制定資料分析策略、準備分析資料、進行資料探勘、分析和視覺化、使用 Python 和 R 等程式語言建立資料模型,以及將模型部署到應用程式中。

資料科學家無法只靠一己之力完成工作。其實最有效的數據科學分析要透過團隊完成。除了資料科學家之外,該團隊還可能包括定義問題的業務分析師、準備資料及相應存取方式的資料工程師、負責監督底層流程和基礎架構的 IT 架構師,以及將分析模型或輸出部署到應用程式和產品的應用程式開發人員。

實作資料科學專案的挑戰

儘管資料科學前景看好,也有公司斥巨資投資資料科學團隊,但許多公司還沒有完全發揮資料的價值。在招募人才及打造資料科學計劃的競賽中,有些公司遇到了團隊工作流程缺乏效率、不同的人員使用無法妥善配合的不同工具和流程等情況。如果沒有更嚴格、更集中地管理,高階主管可能無法看到他們的投資獲得完全的回報。

這樣混亂的環境帶來了許多挑戰。

資料科學家無法有效率地工作。因為資料存取權必須由 IT 管理員提供,所以數據科學家經常得長時間等待資料以及分析資料所需資源到位。一旦他們有權存取資料,團隊內可能又會使用不同且可能不相容的工具來分析資料。比如科學家可能會使用 R 語言開發模型,但部署模型的應用程式卻是使用不同的語言撰寫的。這就是為什麼可能要耗時數週甚至數月,才能將模型部署到有用的應用程式中。

應用程式開發人員無法使用可用的機器學習模型。有時開發人員收到的機器學習模型根本還沒準備好部署至應用程式中。且由於存取點可能毫無彈性,所以無法在所有情況下部署模型,擴充性也留待應用程式開發人員處理。

IT 管理員耗費太多時間提供支援。由於開放原始碼工具激增,因此 IT 部門須支援的工具越來越多。比如行銷領域的資料科學家所使用的工具,可能不同於金融領域的資料科學家。團隊的工作流程可能也不同,意味著 IT 部門必須不斷重建及更新環境。

業務經理與資料科學脫節。資料科學工作流程不一定整合在業務決策制定程序及系統中,使得業務經理難以運用相關知識,有理有據地與資料科學家進行合作。如果沒有更完善的整合,業務經理將無法理解為什麼從建立原型到投入生產需要如此長的時間,也就不太可能支持對他們認為進展太慢的專案進行投資。

資料科學平台提供全新功能

許多公司意識到如果沒有一個整合式平台,資料科學分析工作將缺乏效率,安全性也會很低且難以擴充。這樣的認知讓資料科學平台因此運應而生。這類平台是軟體中心,所有資料科學工作都在這個中心進行。良好的平台可以減輕實作資料科學分析時面臨的諸多挑戰,並能協助企業更快、更有效地將資料轉化為見解。

在集中管理的機器學習平台上,資料科學家可以用其喜愛的開放原始碼工具在協作環境中工作,所有的工作都由版本控制系統同步。

採用資料科學平台的好處

資料科學平台讓團隊可以共用程式碼、成果和報告,進而減少冗餘並推動創新。簡化管理並結合最佳實務做法,以消除工作流程中的瓶頸。

一般而言,最佳的資料科學平台旨在:

  • 協助資料科學家更加速交付模型,減少錯誤,讓他們更具生產力
  • 讓資料科學家更輕鬆地處理大量、各式各樣的資料
  • 提供值得信任的企業級人工智慧,且該人工智慧無偏見、可稽核、可重現

資料科學平台旨在供一系列使用者合作所打造,包括專業資料科學家、素人資料科學家資料工程師和機器學習工程師或專家。例如資料科學平台可以讓資料科學家將模型部署為 API,進而輕鬆地將此模型整合至不同的應用程式中。數據科學家無需等待 IT 部門即可存取工具、資料和基礎架構。

對數據科學平台的需求在市場上呈現爆炸式成長。事實上,平台的市場預計將在未來幾年,以每年超過 39% 的複合年增長率成長,2025 年前有望達到 3850 億美元。

資料科學家在平台上需要哪些功能

如果您準備好探索資料科學平台的功能,以下幾個關鍵功能值得注意:

選擇適合合作、以專案為基礎的 UI。您選擇的平台應該讓人能夠在從模型的概念構思到最終開發上,都能一起協作。應讓讓每個團隊成員獲得自行存取資料權限和資源。

優先考慮整合和彈性。確保該平台支援最新的開放原始碼工具與常見的版本控制平台,如 GitHub、GitLab 和 Bitbucket,並能與其他資源密切整合。

涵蓋企業級功能。隨著團隊不斷成長,應確保平台可隨業務擴充。該平台應具備有高可用性、完善的存取控制功能,並支援大量使用者同時使用。

讓資料科學自助化。尋找一個能夠減輕 IT 和工程部門負擔的平台,讓資料科學家能夠快速簡便地啟動環境、追蹤所有工作,並輕鬆地將模型部署到生產環境中。

確保更輕鬆的模型部署。模型部署和操作化是機器學習生命週期最重要的步驟之一,但常遭到忽視。確保您選擇的服務能更輕鬆地讓模型運作,無論是提供 API 或確保使用者以容易整合的方式建置模型。

當資料科學平台是正確的做法時

如果您注意到以下情況,您的組織可能適合使用資料科學平台:

  • 生產力和協作出現吃緊的跡象
  • 無法稽核或重現機器學習模型
  • 模型從未投入生產

資料科學平台可以為您的業務帶來真正的價值。Oracle 的資料科學平台包含一系列廣泛服務,提供專為加速模型部署和改善資料科學成效而設計的完整端對端體驗。