Đánh giá về RDD trong Spark là gì và tại sao chúng ta cần nó?
Xem nhanh
Nói chung, Apache Spark đã vượt qua Hadoop (MapReduce), vì nhiều lợi ích mà nó mang lại về mặt thực thi nhanh hơn trong các thuật toán xử lý lặp như Học máy.
Trong bài đăng này, chúng tôi sẽ cố gắng hiểu điều gì làm cho tia RDD trở nên hữu ích trong phân tích hàng loạt.
Tại sao lại là RDD?
Khi nói đến điện toán phân tán lặp, tức là xử lý dữ liệu qua nhiều công việc trong các tính toán như Hồi quy logistic, phân cụm K-nghĩa, thuật toán xếp hạng Trang, khá phổ biến để sử dụng lại hoặc chia sẻ dữ liệu giữa nhiều công việc hoặc bạn có thể muốn thực hiện nhiều công việc truy vấn đặc biệt trên một tập dữ liệu được chia sẻ.
Có một vấn đề tiềm ẩn với việc tái sử dụng dữ liệu hoặc chia sẻ dữ liệu trong các hệ thống máy tính phân tán hiện có (như MapReduce) và đó là, bạn cần lưu trữ dữ liệu trong một số cửa hàng phân tán ổn định trung gian như HDFS hoặc Amazon S3. Điều này làm cho việc tính toán tổng thể các công việc chậm hơn vì nó liên quan đến nhiều hoạt động IO, sao chép và tuần tự hóa trong quy trình.
Xử lý lặp trong MapReduce
RDD, cố gắng giải quyết các vấn đề này bằng cách cho phép tính toán trong bộ nhớ phân tán chịu lỗi.
Xử lý lặp trong Spark
Bây giờ, hãy hiểu chính xác RDD là gì và cách nó đạt được khả năng chịu lỗi –
RDD – Bộ dữ liệu phân tán linh hoạt
RDD là bộ sưu tập các bản ghi bất biến và được phân vùng, chỉ có thể được tạo bởi các hoạt động chi tiết thô như bản đồ, bộ lọc, nhóm, v.v. Bằng các thao tác chi tiết thô, điều đó có nghĩa là các hoạt động được áp dụng trên tất cả các phần tử trong bộ dữ liệu. RDD chỉ có thể được tạo bằng cách đọc dữ liệu từ bộ lưu trữ ổn định như HDFS hoặc bằng cách chuyển đổi trên RDD hiện có.
Bây giờ, làm thế nào là giúp đỡ cho dung sai lỗi?
Vì RDD được tạo qua một tập hợp các phép biến đổi, nó ghi nhật ký các phép biến đổi đó, chứ không phải là dữ liệu thực tế . Sơ đồ biến đổi để tạo ra một RDD được gọi là Đồ thị Lineage .
Ví dụ –
firstRDD=spark.textFile("hdfs://...") secondRDD=firstRDD.filter(someFunction); thirdRDD = secondRDD.map(someFunction);
Biểu đồ truyền thừa Spark RDD
Trong trường hợp chúng tôi mất một số phân vùng của RDD, chúng tôi có thể phát lại chuyển đổi trên phân vùng đó theo dòng để đạt được cùng một tính toán, thay vì sao chép dữ liệu trên nhiều nút. Đặc điểm này là lợi ích lớn nhất của RDD, vì nó tiết kiệm rất nhiều nỗ lực trong quản lý và nhân rộng dữ liệu và do đó đạt được các tính toán nhanh hơn.
Các câu hỏi về rdd spark là gì
Nếu có bắt kỳ câu hỏi thắc mắt nào vê rdd spark là gì hãy cho chúng mình biết nhé, mõi thắt mắt hay góp ý của các bạn sẽ giúp mình cải thiện hơn trong các bài sau nhé <3 Bài viết rdd spark là gì ! được mình và team xem xét cũng như tổng hợp từ nhiều nguồn. Nếu thấy bài viết rdd spark là gì Cực hay ! Hay thì hãy ủng hộ team Like hoặc share. Nếu thấy bài viết rdd spark là gì rât hay ! chưa hay, hoặc cần bổ sung. Bạn góp ý giúp mình nhé!!
Các Hình Ảnh Về rdd spark là gì
Các hình ảnh về rdd spark là gì đang được chúng mình Cập nhập. Nếu các bạn mong muốn đóng góp, Hãy gửi mail về hộp thư [email protected] Nếu có bất kỳ đóng góp hay liên hệ. Hãy Mail ngay cho tụi mình nhé
Tra cứu kiến thức về rdd spark là gì tại WikiPedia
Bạn hãy tìm thông tin về rdd spark là gì từ trang Wikipedia.◄ Tham Gia Cộng Đồng Tại💝 Nguồn Tin tại: https://cctechvietnam.vn/hoi-dap/
💝 Xem Thêm Chủ Đề Liên Quan tại : https://cctechvietnam.vn/hoi-dap/