Big Data 오픈 소스

오픈 소스를 포함하지 않고 빅 데이터에 대한 스토리를 작성하기가 어렵습니다. 둘이 서로 연결되어 있습니다. 오픈 소스 소프트웨어의 개발은 빅 데이터의 진화에 있어 큰 요인이었습니다. 또한 오픈 소스 기술은 빠른 혁신 기능으로 인해 빅 데이터 에코시스템의 핵심 요소가 되고 있습니다. 실제로 빅 데이터 소프트웨어에서 가장 중요한 이름인 Hadoop, Spark, Cassandra 및 Kafka는 모두 오픈 소스입니다.

기업은 빅 데이터에 오픈 소스를 어떻게 사용하고 있습니까?

오픈 소스 소프트웨어는 취미와 아마추어 개발자의 좋아하는 명성을 가지고 있지만, 비즈니스 세계는 꽤 오랫동안 미션 크리티컬 환경에서 오픈 소스를 채택하고있다.

회사에서 오픈 소스 소프트웨어를 선택하는 몇 가지 이유는 다음과 같습니다.

경쟁력 있는 특징 및 기술 기능
솔루션의 품질
문제를 커스터마이즈하고 해결하는 기능
낮은 진입 장벽

오픈 소스의 가장 큰 장점 중 하나는 크고 헌신적인 개발자 커뮤니티입니다. 가장 인기 있는 오픈 소스 프로젝트에는 기술을 패치하고 개선하기 위해 노력하는 거대한 개발자 기반이 있습니다. 개발자들은 기존의 소프트웨어와 비교할 때 특히 중요한 경쟁 기능과 혁신적인 기능을 갖춘 오픈 소스로 자리잡고 있습니다.

오픈 소스는 자체 소프트웨어를 구축할 내부 개발 또는 IT 리소스가 없는 회사에 특히 유용합니다. 또는 이러한 리소스를 보유한 기업들은 직원들에게 더 관심 있는 최첨단 기술을 제공하기 위해 오픈 소스로 전환합니다.

기업은 오픈 소스를 어떻게 볼 수 있을까요?

오픈 소스 기술은 많은 약속을 가지고 있습니다. 하지만 도전이 없는 것은 아니다. According to the 2016 North Bridge and Black Duck Future of Open Source Study, almost 33 percent of companies have no process for identifying, tracking or remediating known open source vulnerabilities, which could leave them open to security threats.

오픈 소스는 빅 데이터 커뮤니티에 매우 유리했습니다. 바로 사용할 수 있는 코드를 통해 오픈 소스 소프트웨어를 통해 기업은 제품의 출시 시간을 단축할 수 있습니다. 그러나 그것은 항상 어느 정도의 위험을 감수했다. 2014년 OpenSSL Heartbleed 보안 취약점은 취약점의 한 예입니다.

많은 기여자를 통해 얻은 이점에도 불구하고 오픈 소스 소프트웨어는 일반적인 프로그래밍 실수와 보안 블런더에 영향을 미치지 않습니다. 대부분의 소프트웨어 엔지니어는 오픈 소스 사용을 추적하지 않으므로 많은 회사에서 발생할 수 있는 보안 및 규정 준수 위험을 알지 못합니다.

오픈 소스가 완벽하고 유용하기 위해서는 대부분의 기업이 어느 정도까지든 통합 및 지원되어야 합니다. 어떤 의미에서 오픈 소스는 결코 완료되지 않기 때문에, 그것은 더 쉬운 말입니다. 항상 새로운 일을 해야 합니다. 또한 오픈 소스 제품은 작업하기 쉽지 않은 경우가 많습니다. 오픈 소스를 사용하려면 교육이 필요할 수 있습니다. 기존 응용 프로그램 및 하드웨어와의 호환성도 중요합니다. 대부분의 회사는 다른 회사를 통해 오픈 소스를 채택합니다.

Oracle, Databricks 및 DataStax와 같은 기업들은 이러한 방식으로 오픈 소스로 작업해 왔습니다. 이러한 기업들은 오픈 소스를 기업에 도입하여 이를 완전히 유용하게 만들었습니다. 이 기업들은 커밋과 다양한 개선 사항을 통해 오픈 소스에 가치를 더하기 때문에 큰 이점이 있습니다.

2017년 오픈 소스 서밋(Open Source Summit)에서 Linux 설립자 Linus Torvalds는 기업 개발자들이 오픈 소스 프로젝트에 대한 기업의 영향력과 작업을 확인하고 환영했습니다. 그는 "기업을 오픈 소스에 두는 것이 매우 중요합니다"라고 말했습니다. "내가 아주 행복했던 한 가지입니다."

Oracle Big Data는 오픈 소스를 어떻게 사용합니까?

2017년에 Oracle은 오픈 소스 소프트웨어 개발 및 유지 관리에 있어 주요 역할을 하는 상위 35개 기업 중 하나로 선정되었습니다. 2010년 Sun Microsystems 구매를 통해 Oracle은 세계에서 가장 인기 있는 오픈 소스 기술을 인수했습니다. 오픈 소스 빅 데이터 기술에 대한 우리의 지원은 지난 몇 년 동안 우리를 위해 지배적 인 성장 동인 중 하나였습니다. Oracle은 오픈 소스 개발 및 토대를 계속 지원하고 있습니다.

빅 데이터의 경우 Oracle은 특히 오픈 소스 소프트웨어와 협력하는 데 능동적이었습니다. 다음 섹션에서는 Oracle이 빅 데이터 플랫폼의 다양한 영역에서 오픈 소스를 사용하는 방법에 대해 설명합니다. Oracle에서는 빅 데이터로 작업하는 세 가지 주요 단계로 구성됩니다.

빅 데이터를 통합하여 시스템으로 가져오기
빅 데이터 관리 및 저장 공간 확보
분석하여 데이터를 사용한 머신 러닝을 기반으로 사전 예방적 모델을 이해, 시각화, 이해 및 구축

통합 및 빅 데이터

많은 빅 데이터 고객이 특히 오픈 소스 오퍼링을 요구하고 있습니다. Oracle은 오픈 소스를 개발, 지원 및 홍보하기 위해 노력하고 있습니다. Oracle Data Integration 및 Oracle GoldenGate와 같은 Oracle 데이터 통합 제품에는 다양한 플랫폼과 함께 오픈 소스 기술이 포함됩니다.

또한 많은 고객이 지속적으로 변화하는 오픈 소스 프레임워크와 지원 기술을 현대화하기를 원한다는 사실을 알고 있습니다. 데이터 통합 측면에서 현재 약 25가지 오픈 소스 기술, 데이터 소스, 대상 및 실행 프레임워크를 지원합니다. 우리가 지원하는 기술 중 일부는 다음과 같습니다.

Apache Kafka
Apache Hive
Apache HBase
Hadoop 클라우드 시스템
Apache Cassandra

오늘날 고객이 바라보는 것은 빅 데이터 제품의 성숙도 수준입니다. 고려해야 할 가장 중요한 요소 중 하나는 공급업체가 빅 데이터 프레임워크에 대해 수용 가능한 지원 전략을 갖고 있는지 여부입니다. 벤더는 오픈 소스 기술에 대한 헌신에 대해 우연하지 않습니다.

제품 성숙도와 함께 빅 데이터 비즈니스 솔루션은 일반적으로 오픈 소스와 오픈 소스가 아닌 소스가 혼합되어 있을 것입니다. 기업들은 오픈 소스 솔루션으로 빅 데이터 문제를 해결하고 있지만 많은 노력, 헌신 및 전문 지식이 필요합니다.

필요한 경우 오픈 소스 기술을 활용할 수 있어야 합니다. 그러나 대부분의 경우 다른 다양한 공급업체 기술과도 협력해야 합니다.

예를 들어, 데이터 레이크 설정 초기에 기업은 Kafka와 같은 제품을 활용하고 많은 입력을 가져와 여러 출력으로 배포하고자 했습니다. 그러나 Kafka의 안정성과 견고성을 높이려면 Oracle GoldenGate와 같은 기술이 필요했습니다. GoldenGate는 오픈 소스가 아니지만 GoldenGate와 Kafka는 GoldenGate가 Sqoop보다 훨씬 강력하고 성숙한 제품이기 때문에 Kafka와 Sqoop 같은 제품을 사용하는 것보다 데이터 레이크에 대한 더 나은 수집 옵션을 만듭니다.

빅데이터 관리

데이터 관리 관점에서 Oracle의 빅 데이터 제품 스택은 오픈 소스를 기반으로 합니다.

Oracle은 오픈 소스 혁신을 활용하고 고객에게 제공되는 기능을 더 효과적으로 제어하기 위해 이 접근 방식을 선택했습니다. 빅 데이터를 사용하면 스택 내에 지속적으로 발전하는 여러 구성요소가 있습니다. 이것이 우리가 자체 오픈 소스 Hadoop 배포를 결정한 이유입니다.

또한 오픈 소스 소프트웨어를 사용하여 Oracle이 고객에게 더 나은 지원을 제공할 수 있다고 믿습니다. 동시에 다른 소프트웨어 생태계가 진화하는 흥미로운 오픈 소스 프로젝트를 개발하고 있다는 것을 알고 있습니다. 그렇기 때문에 Oracle은 계속해서 다양한 개발 커뮤니티에 기여하고 있습니다. 예를 들어 Oracle의 개발 노력은 객체 저장소를 데이터 레이크로 사용하도록 진화하고 있습니다.

Oracle은 오픈 소스 커뮤니티에 적극적으로 기여하고 고객에게 더 나은 성능과 기능을 제공하기 위해 자신의 IP를 제공합니다.

R 프로그래밍 언어

Oracle은 R만을 채택한 것이 아니라 실제로 개선했습니다. 무료 다운로드인 오픈 소스 R의 Oracle 지원 재배포는 데이터베이스 및 Hadoop에서 실행되는 것과 호환되며 병렬화되었기 때문에 더 빠릅니다.

R은 단일 시스템 대신 여러 노드와 클러스터에서 실행될 수 있으므로 고객은 샘플링에 의존하지 않고 더 많은 데이터 세트에서 더 크고 복잡한 알고리즘을 실행할 수 있습니다. R에 대한 Oracle의 향상된 기능을 통해 사용자는 R 구문을 사용하고 그 아래에 확장 가능하고 성능이 뛰어난 다양한 구현을 제공할 수 있습니다.

또한 Oracle은 다음과 같이 R을 개선했습니다.

데이터베이스 및 R 구문에서 작동하도록 알고리즘을 생성함
R 스크립트를 실행 가능으로 설정
사용자가 R 스크립트를 실행하고 SQL을 활용할 수 있도록 간소화

Oracle은 Hive용 R 인터페이스를 도입하여 Hadoop 공간으로도 확장했습니다.

R, Hadoop 및 오픈 소스에 대한 Oracle의 노력은 단순히 기술에 국한되지 않습니다. R 커뮤니티가 2015년에 R Consortium을 만들었을 때 Oracle은 창립 멤버였습니다. R 컨소시엄은 R 오픈 소스 커뮤니티에 혜택과 지원을 제공하기 위해 설립되었습니다. Oracle은 R의 성장과 개발을 지속적으로 지원하고 있으며 R 패키지 품질에 대한 채택 모범 사례를 장려했습니다.

빅 데이터를 위한 공간 및 그래프 데이터베이스

Oracle Spatial 및 Oracle 그래프 분석 서비스 및 데이터 모델은 Apache Hadoop 및 NoSQL 데이터베이스 기술에서 빅데이터 워크로드를 지원합니다. 둘 다 오픈 소스 라이브러리와 구성요소를 통합하여 오퍼링을 완성합니다. Oracle은 주로 Apache 기반 프로젝트에서 인프라 목적으로 이러한 여러 구성요소를 사용했습니다.

Oracle은 관계를 상호 이익으로 봅니다. 예를 들어 공간/그래프 측면에 대한 분석은 사용자 정의 방식으로 구축되었지만 그래프 데이터 분석을 위한 도메인별 언어인 Green-marl이라는 오픈 소스 프로젝트를 기반으로 프로세스를 가속화하여 고객을 위한 분석 관련 질문을 보다 신속하게 처리할 수 있었습니다.

Oracle이 오픈 소스에 기여할 때 일반적으로 오픈 소스를 활용하고 사용자 정의하며 향상시킵니다. 다음은 오픈 소스에 대한 Oracle의 기여 예시입니다:

Cytoscape: Oracle은 당사가 제공하는 구성요소(예: GDAL 확장)를 개발하여 다른 사용자가 데이터를 공간 데이터베이스에 로드할 수 있도록 합니다.
속성 그래프 측: Oracle은 우리가 작업하는 제품 또는 프로젝트를 확장하고 버그 및 보안 문제를 식별하며 적절한 개발자에게 피드백을 제공할 기회를 찾습니다. 우리가 가장 많이 기여한 기능은 RDF W3C입니다.
Oracle은 공간 데이터의 임포트, 익스포트 및 형식 변환을 위해 이를 통합했습니다. Oracle은 Oracle Spatial 및 Oracle Graph 드라이버를 제공합니다.