Databricks, dịch vụ phân tích dữ liệu lớn được thành lập bởi các nhà phát triển ban đầu của Apache Spark, hôm nay tuyên bố rằng họ sẽ đưa dự án nguồn mở Delta Lake của mình để xây dựng các hồ dữ liệu cho Quỹ Linux và theo mô hình quản trị mở. Công ty đã công bố ra mắt Delta Lake vào đầu năm nay và mặc dù nó vẫn là một dự án tương đối mới, nhưng nó đã được nhiều tổ chức chấp nhận và đã tìm thấy sự ủng hộ từ các công ty như Intel, Alibaba và Booz Allen Hamilton.

Ra năm 2013, chúng tôi đã có một dự án nhỏ, nơi chúng tôi đã thêm SQL vào Spark tại Databricks […] và tặng nó cho Quỹ Apache, Giám đốc điều hành và đồng sáng lập của Ali Databricks nói với tôi. Sau nhiều năm, mọi người dần thay đổi cách họ thực sự tận dụng Spark và chỉ trong năm ngoái, nó mới thực sự bắt đầu cho chúng ta thấy rằng có một mô hình mới xuất hiện và Spark được sử dụng theo cách hoàn toàn khác so với chúng ta có lên kế hoạch ban đầu. Chỉ

Mô hình này, theo ông, là các công ty đang lấy tất cả dữ liệu của họ và đưa nó vào các hồ dữ liệu và sau đó làm một vài điều với dữ liệu này, học máy và khoa học dữ liệu là những điều hiển nhiên. Nhưng họ cũng đang làm những việc có truyền thống hơn với kho dữ liệu, như báo cáo và báo cáo kinh doanh. Thuật ngữ Ghodsi sử dụng cho loại sử dụng này là ‘Lake House. Nhiều hơn nữa, Databricks đang thấy rằng Spark đang được sử dụng cho mục đích này và không chỉ để thay thế Hadoop và thực hiện ETL (giải nén, biến đổi, tải). Đây là kiểu mẫu của Lake House mà chúng tôi thấy đã xuất hiện ngày càng nhiều và chúng tôi muốn nhân đôi nó lên. [[9009003]

Spark 3.0, được ra mắt ngày hôm nay, cho phép nhiều trường hợp sử dụng này và tăng tốc đáng kể, ngoài việc ra mắt một tính năng mới cho phép bạn thêm một danh mục dữ liệu có thể cắm vào Spark.

Hồ dữ liệu, Ghodsi nói, về cơ bản là lớp dữ liệu của mẫu Hồ Nhà. Ví dụ, nó mang đến sự hỗ trợ cho các giao dịch ACID cho các hồ dữ liệu, xử lý siêu dữ liệu có thể mở rộng và phiên bản dữ liệu. Tất cả dữ liệu được lưu trữ ở định dạng Parquet Apache và người dùng có thể thực thi các lược đồ (và thay đổi chúng một cách dễ dàng nếu cần thiết).

Thật thú vị khi thấy Databricks chọn Linux Foundation cho dự án này, với điều kiện là nguồn gốc của nó nằm trong Quỹ Apache. Sau đó, chúng tôi rất vui mừng được hợp tác với họ, họ đã nói về lý do tại sao công ty chọn Quỹ Linux. Họ điều hành các dự án lớn nhất trên hành tinh, bao gồm dự án Linux nhưng cũng có rất nhiều dự án đám mây. Các công cụ có nguồn gốc từ đám mây là tất cả trong Linux Foundation. [[9009003]

Quảng cáo mang Delta Delta dưới ngôi nhà trung lập của Quỹ Linux sẽ giúp cộng đồng nguồn mở phụ thuộc vào dự án phát triển công nghệ giải quyết cách thức lưu trữ và xử lý dữ liệu lớn, cả tại chỗ và trên đám mây, Michael Dolan nói , VP của các chương trình chiến lược tại Quỹ Linux. Nền tảng Linux giúp các cộng đồng nguồn mở tận dụng mô hình quản trị mở để cho phép xây dựng sự đồng thuận và đóng góp công nghiệp rộng rãi, điều này sẽ cải thiện tình trạng của nghệ thuật lưu trữ dữ liệu và độ tin cậy.

Share.

Comments are closed.