找不到任何結果

您的搜尋未與任何結果相符。

以下操作有助您找到所需內容,建議您不妨一試:

  • 檢查您關鍵字搜尋的拼字是否正確。
  • 改用您所輸入關鍵字的同義詞,例如以「應用軟體」取代「軟體」。“”“”
  • 嘗試下列其中一項熱門搜尋。
  • 開始新的搜尋。
常見問題

已定義的資料科學

低頭看著平板電腦的女子

以下是資料科學的簡單定義:

資料科學橫跨多個領域,包括統計、科學方法和資料分析,以從資料中發現價值。

實作資料科學的人員稱為資料科學家,且他們結合一系列技能,以分析從網路、智慧型手機、客戶、感應器和其他來源收集的資料。

資料科學:尚待開發的機器學習資源

資料科學是現今最激勵人心的領域之一。但資料科學為何重要?

因為眾多公司坐擁資料寶庫。隨著現代技術創造並儲存越來越多的資訊,資料量已經爆炸性成長。據估計,全球有 90% 的資料是在過去兩年中創造出來的。例如 Facebook 的使用者每小時會上傳 1000 萬張照片。

但是這些資料常仍保存在資料庫和資料湖中,大部分仍尚待開發。

這些由技術收集和儲存的大量資料,可以為世界各地的組織和社會帶來革命性的好處,但前提是我們懂得如何解釋這些資料。這便是資料科學派上用場的時候了。

資料科學讓我們看到趨勢,並為企業提供見解,協助企業做出更好的決策,並創造更多創新產品和服務。或許最重要的是,資料科學可讓機器學習 (ML) 模型從輸入給它們的龐大資料量中學習,而不必主要仰賴業務分析師來查看他們可以從資料中挖掘出什麼。

資訊是創新的基石,但其價值來自於科學家從中收集並據此採取行動的資訊。

資料科學、人工智慧和機器學習之間有何差異?

資料科學、人工智慧和機器學習之間有何差異?

為更能了解資料科學—及您如何駕馭資料科學—,同樣重要的是,應知曉該領域的其他術語,例如人工智慧 (AI) 和機器學習。雖然您會發現這些術語經常交互使用,但仍有細微差異。

以下是簡易的細分:

  • AI表示透過某種方式讓電腦模仿人類行為。
  • 資料科學是 AI 的子集合,係指統計學、科學方法和資料分析領域的整合—全都用於從資料中識別出正確的意涵和見解。
  • 機器學習是另一種 AI 的子集合,由可讓電腦從資料中理解事物並提供 AI 應用程式的技術組成。

此外,我們還另外加入其他定義:

  • 深度學習是機器學習的子集合,讓電腦解決更複雜的問題。

資料科學如何推動業務轉型

資料科學與資料增長

許多組織正透過資料科學改善產品和服務,將資料轉化為競爭優勢。資料科學和機器學習使用案例包括:

  • 透過分析從客服中心升級的資料判斷客戶流失率,以便行銷部門採取行動來留住客戶
  • 透過分析交通模式、天氣狀況和其他因素的方式來提升效率,以便物流公司提高交貨速度並降低成本
  • 透過分析醫學檢驗資料和報告的症狀的方式提升病患診斷結果,以便醫師更早診斷出疾病並有效地治療疾病
  • 預測設備何時故障,藉以打造最佳的供應鏈
  • 便是可疑行為和異常動作,察覺金融服務詐騙
  • 根據之前的購買項目建立客戶的推薦清單,藉以提升銷售量

許多公司都視資料科學為首要任務,並斥巨資投資此領域。在 Gartner 近期對超過 3,000 名資訊長進行的兩項調查中,受訪者將分析和商業智慧視為最能使組織脫穎而出的技術。接受調查的資訊長皆認為上述科技是自家公司最重要的策略性技術,因此進行投資。

如何進行資料科學分析

如何進行資料科學分析

分析和處理資料的過程是迭代的而非線性的,但資料模型建立專案的資料科學生命週期一般如下所述:

規劃:定義專案及其可能的成果。

建置資料模型:資料科學家經常使用各種開放原始碼程式庫或資料庫內工具,來建置機器學習模型。使用者常會想要 API 協助進行資料擷取、資料概述和視覺效果或功能工程。他們將需要的合適的工具和正確工具及其他資源 (如運算力) 的存取權。

評估模型:資料科學佳必須在有信心部署前讓模型達到高準確性。模型評估作業一般會產生完整的評估指標和視覺效果套件,以對照新資料衡量模型效能並隨著時間進行評比,以在生產中達到最佳行為。除了原始效能之外,模型評估還將考慮預期的基準線行為。

模型說明:雖然不一定總是能夠以人類術語說明機器學習模型結果的內部機制—,但此做法越來越重要。資料科學家想要以自動化的方式說明產生預測之因素的相對權重和重要性,以及對於模型預測的特定模型說明詳細資料。

部署模型:採用經過訓練的機器學習並將其將入合適的系統中,經常是困難又費力的流程。讓模型如可擴充的安全 API 運作,或使用資料庫內機器學習模型,即可更容易達成此目標。

監控模型:不幸的是,模型部署並非最後的工作。部署後必須隨時監控模型,以確保模型正確運作。用於訓練模型的資料在一段時間後可能不再與未來的預測相關。例如,在詐騙偵測中,罪犯總是會設想新方法來駭入帳戶。

為資料科學家打造的工具

為資料科學家打造的工具

建置、評估、部署和監控機器學習模型會是繁雜的流程。那也是為何資料科學工具逐漸變多的原因。資料科學家會使用多種類型的工具,但其中最常見的是開放原始碼筆記本,也就是用於撰寫和執行程式碼、將資料視覺化、可以查看結果的網路應用程式,上述一切都發生在同一個環境裡。

最流行的筆記本包括 Jupyter、RStudio 和 Zeppelin。筆記本在分析時非常有用,但若資料科學家需要進行團隊合作時,確實會有所限制。資料科學平台即是為了解決此問題所建置。

為了判斷哪項資料科學工具適用於您,應詢問以下問題:您的資料科學家使用哪種語言?他們喜歡哪種工作方法?他們使用哪種資料來源?

例如,某些使用者偏好使用無關資料來源的服務,而此類服務使用開放原始碼程式庫。他人則偏好資料庫內、機器學習演算法的速度。

誰來監督資料科學分析過程?

誰來監督資料科學分析過程?

在大多數組織中,資料科學專案通常由三種類型的經理監督:

業務經理:這類經理會與資料科學團隊合作定義問題,並制訂分析策略。他們可能是行銷、財務或銷售等業務部門的負責人,有資料科學團隊向他們呈報。業務流程經理與資料科學和 IT 經理密切合作,確保專案按計畫交付。

IT 經理:資深 IT 經理負責將支援資料科學運作的基礎架構和架構。他們不斷監控運作和資源利用率,確保資料科學團隊能高效且安全地運作。他們可能還要負責為資料科學團隊建置並更新 IT 環境。

資料科學經理:這類經理負責監督數據科學團隊及其日常工作。他們負責打造團隊,在團隊發展與專案規劃、監控等業務中取得平衡。

但是在此過程中最重要的一份子是資料科學家。

什麼是資料科學家?

什麼是資料科學家?

資料科學是門年輕的專業領域。其源自於統計分析和資料採礦。Data Science Journal 於 2002 年由 International Council for Science:Committee on Data for Science and Technology 首度出版。到了 2008 年,資料科學家的頭銜出現了,該領域也開始迅速成長。儘管有越來越多大學及學院開始成立資料科學學位,但資料科學家仍供不應求。

資料科學家的職責包括制定分析資料的策略、準備分析資料、探勘、分析並將資料視覺化、使用 Python 和 R 等程式語言建立資料模型,並將模型部署到應用程式中。

資料科學家無法只靠一己之力完成工作。其實最有效的數據科學分析要透過團隊完成。除了資料科學家之外,該團隊還可能包括定義問題的業務分析師、準備資料及相應存取方式的資料工程師、負責監督底層流程和基礎架構的 IT 架構師,以及將分析模型或輸出部署到應用程式和產品的應用程式開發人員。

實作資料科學專案的挑戰

實作資料科學專案的挑戰

儘管資料科學前景看好,也有公司斥巨資投資資料科學團隊,但許多公司還沒有完全發揮資料的價值。在招募人才及打造資料科學計劃的競賽中,有些公司遇到了團隊工作流程缺乏效率、不同的人員使用無法妥善配合的不同工具和流程等情況。如果沒有更嚴格、更集中地管理,高階主管可能無法看到他們的投資獲得完全的回報。

這樣混亂的環境帶來了許多挑戰。

數據科學家無法有效地工作。 因為資料存取權必須由 IT 管理員提供,所以數據科學家經常得長時間等待資料以及分析資料所需資源到位。一旦他們有權存取資料,團隊內可能又會使用不同且可能不相容的工具來分析資料。比如科學家可能會使用 R 語言開發模型,但部署模型的應用程式卻是使用不同的語言撰寫的。這就是為什麼可能要耗時數週甚至數月,才能將模型部署到有用的應用程式中。

應用程式開發人員無法使用可用的機器學習模型。有時開發人員收到的機器學習模型根本還沒準備好部署至應用程式中。且由於存取點可能毫無彈性,所以無法在所有情況下部署模型,擴充性也留待應用程式開發人員處理。

IT 管理員耗費太多時間提供支援。由於開放原始碼工具激增,因此 IT 部門須支援的工具越來越多。比如行銷領域的資料科學家所使用的工具,可能不同於金融領域的資料科學家。團隊的工作流程可能也不同,意味著 IT 部門必須不斷重建及更新環境。

業務經理與資料科學脫節。數據科學的工作流程並不總是與業務決策流程和系統相配合,這讓業務經理很難與數據科學家交換資訊、進行合作。如果不好好的整合流程,業務經理將無法理解為什麼從打造產品原型到生產需要這麼長的時間,而且他們不太可能支持投資耗時太長的專案。

資料科學平台提供全新功能

資料科學平台提供全新功能

許多公司意識到如果沒有一個整合式平台,資料科學分析工作將缺乏效率,安全性也會很低且難以擴充。這樣的認知讓資料科學平台因此運應而生。這類平台是軟體中心,所有資料科學工作都在這個中心進行。良好的平台可以減輕實作資料科學分析時面臨的諸多挑戰,並能協助企業更快、更有效地將資料轉化為見解。

在集中管理的機器學習平台上,資料科學家可以用其喜愛的開放原始碼工具在協作環境中工作,所有的工作都由版本控制系統同步。

採用資料科學平台的好處

採用資料科學平台的好處

資料科學平台讓團隊可以共用程式碼、成果和報告,進而減少冗餘並推動創新。透過簡化管理並加入最佳實務的方式,消除工作流程中的瓶頸。

一般而言,最佳的資料科學平台旨在:

  • 協助資料科學家更加速交付模型,減少錯誤,讓他們更具生產力
  • 讓資料科學家更輕鬆地處理大量、各式各樣的資料
  • 提供值得信任的企業級人工智慧,且該人工智慧無偏見、可稽核、可重現

資料科學平台旨在供一系列使用者合作所打造,包括專業資料科學家、素人資料科學家資料工程師和機器學習工程師或專家。例如資料科學平台可以讓資料科學家將模型部署為 API,進而輕鬆地將此模型整合至不同的應用程式中。數據科學家無需等待 IT 部門即可存取工具、資料和基礎架構。

對數據科學平台的需求在市場上呈現爆炸式成長。事實上,平台的市場預計 將在未來幾年,以每年超過 39% 的複合年增長率成長,2025 年前有望達到 3850 億美元。

資料科學家在平台上需要哪些功能

資料科學家在平台上需要哪些功能

如果您準備好探索資料科學平台的功能,以下幾個關鍵功能值得注意:

選擇適合合作、以專案為基礎的 UI。您選擇的平台應該讓人能夠在從模型的概念構思到最終開發上,都能一起協作。應讓讓每個團隊成員獲得自行存取資料權限和資源。

優先考慮整合和彈性。確保該平台支援最新的開放原始碼工具與常見的版本控制平台,如 GitHub、GitLab 和 Bitbucket,並能與其他資源密切整合。

涵蓋企業級功能。隨著團隊不斷成長,應確保平台可隨業務擴充。該平台應具備有高可用性、完善的存取控制功能,並支援大量使用者同時使用。

讓資料科學自助化。尋找一個能夠減輕 IT 和工程部門負擔的平台,讓資料科學家能夠快速簡便地啟動環境、追蹤所有工作,並輕鬆地將模型部署到生產環境中。

確保更輕鬆的模型部署。模型部署和操作化是機器學習生命週期最重要的步驟之一,但常遭到忽視。確保您選擇的服務能更輕鬆地讓模型運作,無論是提供 API 或確保使用者以容易整合的方式建置模型。

當資料科學平台是正確的做法時

如果您注意到以下情況,您的組織可能適合使用資料科學平台:

  • 生產力和協作出現吃緊的跡象
  • 無法稽核或重現機器學習模型
  • 模型從未投入生產。

資料科學平台可以為您的業務帶來真正的價值。Oracle 的資料科學平台包括一系列的廣泛服務,提供專為加速模型部署並改善資料科學成果的全方位端對端體驗。