25 mai 2022
Il serait difficile d'écrire l'histoire du big data sans inclure open source : les deux sont liés entre eux. Le développement de logiciels open source a été un facteur important dans l'évolution du big data. Et la technologie open source continue de faire partie intégrante de l'écosystème du Big Data en raison de sa capacité à innover rapidement. En fait, les noms les plus importants des logiciels Big Data (Hadoop, Spark, Cassandra et Kafka) sont tous open source.
Bien que les logiciels open source aient la réputation d'être un favori parmi les amateurs et les développeurs amateurs, ce monde des affaires adopte depuis un certain temps l'open source dans des environnements stratégiques.
Les raisons pour lesquelles les entreprises choisissent un logiciel open source sont les suivantes :
Sans doute, l'un des plus grands avantages de l'open source est sa grande et dévouée communauté de développeurs. Les projets open source les plus populaires ont une énorme base de développeurs travaillant à corriger et à améliorer la technologie. Les développeurs sont attirés par l'open source pour ses fonctionnalités compétitives et ses capacités innovantes, ce qui est particulièrement précieux par rapport à ce que les logiciels traditionnels peuvent créer.
L'open source est particulièrement bénéfique pour les entreprises qui n'ont pas les ressources informatiques ou de développement en interne pour construire leur propre logiciel. Alternativement, les entreprises qui ont ces ressources se tournent vers l'open source pour donner à leurs employés la technologie de pointe avec laquelle ils sont plus intéressés à travailler.
La technologie open source est très prometteuse. Mais ce n'est pas sans défis. Selon l'étude Open Source 2016 de North Bridge et Black Duck Future, près de 33 % des entreprises n'ont aucun processus pour identifier, suivre ou corriger les vulnérabilités open source connues, ce qui pourrait les laisser ouvertes aux menaces de sécurité.
L'open source a été très avantageux pour la communauté du Big Data. Avec son code prêt à l'emploi, les logiciels open source ont permis aux entreprises de commercialiser leurs produits plus rapidement. Mais elle a toujours présenté un certain risque. La vulnérabilité de sécurité OpenSSL Heartbleed en 2014 n'est qu'un exemple de ses vulnérabilités.
Malgré les avantages de nombreux contributeurs, les logiciels open source ne sont pas à l'abri des erreurs de programmation ordinaires et des erreurs de sécurité. La plupart des ingénieurs logiciels ne suivent pas l'utilisation de l'open source, laissant de nombreuses entreprises inconscientes des risques de sécurité et de conformité auxquels elles pourraient être confrontées.
Pour que l'open source soit pleinement utilisable et efficace, la plupart des entreprises ont besoin qu'il soit intégré et soutenu dans une certaine mesure. Ce qui est plus facile à dire qu'à faire, car en un sens, l'open source n'est jamais complet. Il y a toujours quelque chose de nouveau sur lequel travailler. En outre, les produits open source ne sont souvent pas très faciles à utiliser. L'utilisation de l'open source peut nécessiter une formation. La compatibilité avec les applications et le matériel existants est un autre problème. La plupart des entreprises finissent par adopter l'open source via une autre entreprise.
Des entreprises comme Oracle, Databricks et DataStax ont ainsi travaillé avec l'open source. Ces entreprises ont introduit l'open source dans l'entreprise et l'ont rendue entièrement utilisable. Il y a un énorme avantage à cela parce que ces entreprises ajoutent de la valeur à l'open source par des engagements et diverses autres améliorations.
Lors du sommet Open Source de 2017, Linus Torvalds, fondateur de Linux, a reconnu l'influence de l'entreprise et le travail effectué sur les projets open source par les développeurs d'entreprise et l'a accueilli favorablement. "Il est très important d'avoir des entreprises en open source", a-t-il déclaré. "C'est une chose dont j'ai été très heureux."
En 2017, Oracle a été nommé l'une des 35 principales entreprises qui jouent un rôle majeur dans le développement et la maintenance de logiciels open source. Grâce à l'achat de Sun Microsystems en 2010, Oracle a hérité de certaines des technologies open source les plus populaires au monde. Notre soutien aux technologies de big data open source a été l'un des principaux moteurs de croissance pour nous ces dernières années. Oracle continue de soutenir le développement et les fondations open source.
En matière de Big Data, Oracle a été particulièrement proactif dans son travail avec les logiciels open source. La section suivante explique comment Oracle utilise l'open source dans différents domaines de notre plateforme Big Data. Chez Oracle, l'utilisation du Big Data implique trois étapes clés :
Beaucoup de nos clients Big Data exigent spécifiquement des offres open source. Oracle s'engage à développer, soutenir et promouvoir l'open source. Les produits d'intégration de données Oracle, tels qu'Oracle Data Integration et Oracle GoldenGate, incluent une technologie open source, ainsi que de nombreuses autres plateformes.
Nous notons également que de nombreux clients souhaitent moderniser leurs cadres open source et les technologies de support qui changent constamment. Du côté de l'intégration des données, nous prenons actuellement en charge environ vingt-cinq technologies open source, sources de données, cibles et cadres d'exécution différents. Voici quelques-unes des technologies que nous prenons en charge :
Ce que les clients regardent de nos jours, c'est le niveau de maturité de leurs produits Big Data. L'un des facteurs les plus importants à prendre en compte est de savoir si le fournisseur dispose d'une stratégie de support acceptable autour des cadres Big Data. Il est essentiel que le fournisseur ne soit pas négligent dans son engagement envers la technologie open source.
En plus de la maturité du produit, une solution d'entreprise Big Data va généralement être un mélange d'open source et de non-open source. Les entreprises ont résolu des problèmes de Big Data avec des solutions open source, mais cela nécessite beaucoup d'engagement, de dévouement et d'expertise.
Vous pouvez et devez tirer parti de la technologie open source là où cela a du sens. Mais le plus souvent, vous devrez également vous associer à une variété d'autres technologies de fournisseurs.
Par exemple, au début de la création de lacs de données, les entreprises souhaitaient tirer parti d'un produit comme Kafka, avec sa capacité à prendre de nombreuses entrées et à distribuer à de nombreux résultats. Mais rendre Kafka plus fiable et plus robuste, une technologie comme Oracle GoldenGate était nécessaire. Bien que GoldenGate ne soit pas open source, GoldenGate et Kafka offrent ensemble une meilleure option d'inclusion pour un lac de données que l'utilisation d'un produit comme Sqoop avec Kafka, car GoldenGate est un produit beaucoup plus robuste et mature que Sqoop.
Du point de vue de la gestion des données, la pile de produits Big Data d'Oracle est fortement basée sur l'open source.
Oracle a choisi cette approche pour tirer parti de l'innovation open source et mieux contrôler les fonctionnalités mises à la disposition des clients. Avec le Big Data, plusieurs composants de la pile évoluent en permanence. C'est pourquoi nous avons décidé d'avoir notre propre distribution open source Hadoop.
Nous pensons également qu'utiliser un logiciel open source permet à Oracle de fournir un meilleur support à nos clients. Dans le même temps, nous savons que d'autres écosystèmes logiciels développent des projets open source intéressants qui évoluent. C'est pourquoi Oracle continue de contribuer à de nombreuses communautés de développement. Par exemple, les efforts de développement d'Oracle évoluent pour utiliser la banque d'objets en tant que lac de données.
Oracle contribue activement aux communautés open source et offre à ses clients certaines de nos propres adresses IP pour de meilleures performances et de meilleures fonctionnalités.
Chez Oracle, nous n'avons pas seulement adopté R, nous l'avons en fait amélioré. La distribution open source R prise en charge par Oracle (téléchargement gratuit) est compatible avec l'exécution dans les bases de données et Hadoop, et elle est désormais plus rapide car nous l'avons mise en parallèle.
R peut être exécuté sur plusieurs nœuds et sur un cluster au lieu d'une seule machine, de sorte que les clients peuvent exécuter des algorithmes plus volumineux et plus complexes sur plus d'ensembles de données sans compter sur l'échantillonnage. Les améliorations apportées par Oracle à R permettent aux utilisateurs d'utiliser la syntaxe R et de fournir différentes implémentations en dessous qui la rendent évolutive et performante.
En outre, Oracle a apporté les améliorations suivantes à R :
Oracle s'est également étendu à l'espace Hadoop en introduisant l'interface R pour Hive.
L'engagement d'Oracle envers R, Hadoop et l'open source ne se limite pas à la technologie. Lorsque la communauté R a créé le consortium R en 2015, Oracle en était l'un des membres fondateurs. Le Consortium R a été fondé pour offrir des avantages et un soutien à la communauté open source R. Oracle continue de soutenir la croissance et le développement de R et a encouragé l'adoption des meilleures pratiques pour la qualité des packages R.
Les services d'analyses Oracle Spatial and Graph et les modèles de données prennent en charge les charges de travail Big Data sur les technologies de base de données Apache Hadoop et NoSQL. Les deux intègrent des bibliothèques et des composants open source pour compléter nos offres. Oracle a utilisé plusieurs de ces composants à des fins d'infrastructure, principalement sur des projets basés sur Apache.
Oracle considère la relation comme mutuellement bénéfique. Par exemple, nos analyses sur le plan spatial/graphes sont personnalisées, mais nous avons accéléré ce processus car nous l'avons basé sur un projet open source appelé Green-marl, un langage spécifique à un domaine pour l'analyse des données de graphes qui nous permet d'aborder plus rapidement les questions d'analyse pour les clients.
Lorsqu'Oracle contribue à l'open source, nous tirons généralement parti de l'open source, le personnalisons et l'améliorons. Voici des exemples de contributions d'Oracle à l'open source :