9장 오픈 액세스
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
충분한 시선이 주어지면 모든 버그는 얕아집니다.
라이너스의 법칙, 에릭 S. 레이몬드
소프트웨어 세계는 오픈 소스와 독점 소프트웨어라는 두 가지 주요 진영으로 나뉩니다. 개방적이고 협업적인 운영 체제 제품군인 GNU/Linux(Linux)와 Microsoft가 관리하는 또 다른 운영 체제인 Windows에서 이러한 구분을 확인할 수 있습니다. 이러한 구분은 기술을 개발, 사용 및 경험하는 방식을 형성하여 기술의 유연성, 보안 및 혁신에 영향을 미칩니다. 대부분의 Linux 배포판은 라이선스 비용 없이 제공되며, 소스 코드에 액세스할 수 있어 사용자 정의가 가능합니다. 반면에 Windows는 라이선스가 필요하며 사용자 지정이 최소화됩니다. 이러한 차이를 이해하면 소프트웨어에 대해 정보에 입각한 결정을 내릴 수 있습니다. Kiran은 2012년에 Java 개발자로 Tata Consultancy Services에 입사했을 때 책 한 권을 건네받았습니다 : 최종 가이드 (톰 화이트 저, 오라일리)라는 책을 받았습니다. 이 시기는 빅 데이터와 Hadoop이 업계에서 가장 트렌디한 단어 중 하나였을 때였습니다. 그는 이 책 소개가 데이터와 오픈 소스 기술 분야에서 장기적인 경력을 쌓게 될 것이라고는 상상도 하지 못했습니다.
Kiran은 Hadoop을 통해 알게 된 오픈 소스 기술에 대한 초기 경험을 통해 오픈 소스 기술이 최종 사용자에게 어떤 이점을 제공하는지 알게 되었습니다. 그 후 Matei Zaharia가 처음 구축한 Apache Spark는 기업의 오픈 소스 기술 사용 및 채택 방식을 바꾸어 놓았습니다. 몇 년 후, 데이터 거버넌스, 특히 Unity Catalog를 다루는 아키텍트가 된 Kiran은 사용자들로부터 "Unity Catalog는 폐쇄적이고 데이터브릭스만의 독점적인 것이 아닌가?"라는 질문을 자주 받게 되었습니다. 또한 사용자들은 종종 다음과 같은 질문을 하곤 했습니다. Unity Catalog에서 관리하는 데이터를 읽기 위해 외부 엔진을 연결하려면 어떻게 해야 하나요?
데이터브릭스는 더 많은 사용자 커뮤니티에 혜택을 제공하기 위해 자사 제품을 개발하고 오픈 소스로 공개하여 업계에서 인정받고 있습니다. 주목할 만한 공헌도 있습니다:
- Apache Spark
-
데이터 엔지니어링, ML, 데이터 과학 워크로드를 위한 사실상의 데이터 처리 엔진입니다.
- MLflow
-
실험, 재현성, 배포, 중앙 모델 레지스트리를 포함한 ML 수명 주기를 관리합니다.
- Delta Lake
-
AWS S3, ADLS, GCS, HDFS와 같은 스토리지 시스템 위에 레이크하우스 아키텍처를 구축할 수 있습니다.
- 델타 공유
-
안전한 데이터 공유를 위한 업계 최초의 개방형 프로토콜로, 다른 조직과 데이터를 간편하게 공유할 수 있습니다.
- Unity 카탈로그
-
가장 최근에 기여한 기능 중 하나입니다.
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access