柚子快報激活碼778899分享:Spark3.x新特性
Apache Spark 3.x系列引入了許多新特性和改進,以下是一些亮點:
1. **性能提升**:Spark 3.0在TPC-DS基準測試中表現(xiàn)出約兩倍于Spark 2.4的速度 。
2. **自適應查詢執(zhí)行(Adaptive Query Execution, AQE)**:AQE允許Spark在運行時根據(jù)實際數(shù)據(jù)優(yōu)化查詢計劃,包括動態(tài)合并shuffle分區(qū)、動態(tài)調(diào)整join策略和優(yōu)化傾斜的join 。
3. **動態(tài)分區(qū)裁剪(Dynamic Partition Pruning)**:在運行時基于推斷信息進一步進行分區(qū)裁剪,特別是在星型模型中,可以顯著提高查詢性能 。
4. **ANSI SQL兼容性**:改進了對ANSI SQL的兼容性,包括使用Proleptic Gregorian日歷和禁止使用ANSI SQL保留關(guān)鍵字作為標識符 。
5. **Pandas API改進**:對PySpark中的Pandas API進行了重大改進,包括類型提示、新的Pandas UDF類型,以及更符合Python風格的異常處理 。
6. **Structured Streaming新UI**:為Structured Streaming提供了新的UI,以更好地監(jiān)控和調(diào)試流處理作業(yè) 。
7. **R UDF性能提升**:改進了調(diào)用R語言用戶定義函數(shù)的性能,速度提升高達40倍 。
8. **SparkR和Spark MLlib的改進**:包括對SparkR的API改進和對MLlib機器學習庫的更新 。
9. **可擴展性增強**:包括對Hydrogen項目的支持,以及對新硬件加速器的調(diào)度優(yōu)化 。
10. **監(jiān)控和調(diào)試改進**:引入了新的監(jiān)控工具和改進的調(diào)試功能,如Spark UI的改進和對用戶定義函數(shù)的內(nèi)存分析 。
11. **安全性和兼容性**:增加了對Java 11的支持,以及對Hadoop 3的兼容性 。
12. **對Python和R語言的支持**:包括對Python 3.11的支持和對R 4.2.0的支持 。
13. **對連接操作的優(yōu)化**:引入了Bloom過濾器來提升連接查詢的性能,在某些情況下可以提高高達10倍的速度 。
14. **對Pandas API的進一步擴展**:增加了對datetime.timedelta和merge_asof的支持,提高了API的全面性 。
15. **簡化從傳統(tǒng)數(shù)據(jù)倉庫遷移**:通過改進ANSI兼容性和新增的內(nèi)置函數(shù),簡化了從傳統(tǒng)數(shù)據(jù)倉庫遷移到Spark的過程 。
16. **開發(fā)效率和調(diào)試能力提升**:通過更好的錯誤處理、自動完成、性能提升和profiling提高了開發(fā)效率 。
這些新特性和改進顯示了Spark社區(qū)對性能、易用性、兼容性和可擴展性的持續(xù)關(guān)注和投資。
柚子快報激活碼778899分享:Spark3.x新特性
相關(guān)文章
本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。