这篇文章讲的是Spark2.4.0的功能,我觉得边肖很实用,就分享给大家作为参考。让我们跟着边肖看一看。
SparkCore 和 SQL
通过Barrier ExecutionMode的加入,可以更好地与深度学习的框架相融合。
同时,引入了30个内置函数和高阶函数来处理更复杂的数据类型。
改进与k8s的集成
Scala 2.12支持
内置支持Avro格式的数据源,这个感觉还不错,测试用例都是在波峰后面给出的,所以以后最好有pb支持。
性能和稳定性
有很多优化值得关注。
连接器优化
本次优化主要是对Parquet、orc、csv和avro等的优化升级。
MLlib
MLlib支持图像格式的数据源。
StructuredStreaming
使用foreachBatch(支持Python、Scala和Java)将每个微批处理的输出行公开为DataFrame。
在Python API中增加了foreach和ForeachWriter。
使用“kafka.isolation.level”阅读生产者使用交易向kafka主题提交的消息。
感谢阅读!这篇关于“Spark2.4.0有什么功能”的文章就分享到这里了,希望。
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/148267.html