spark缓存教程(spark缓存更新)

技术Spark缓存的使用示例分析本篇内容介绍了“Spark缓存的使用示例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成

本文介绍了“火花缓存使用实例分析”的相关知识。很多人在实际的案件操作过程中都会遇到这样的困难。接下来,让边肖带领大家学习如何应对这些情况!希望大家认真阅读,学点东西!

因为注:使用内部数据文件,所以不会在这里公布。看看测试代码和测试结果就知道了。

本次测试在JupyterNotebook的交互环境下进行。如果直接提交作业,结果可能会不一样。

测试步骤

初始化Spark

from py spark . sqlimportsparksessions park=sparksessions \。构建器\。appName('CacheDemo')\。主控形状('迷你图://10 . 206 . 132 . 113:7077 ')\。config ('spark.driver.memory ',' 5g') \。config ('spark.executor.memory ',' 5g') \。config ('spark.cores.max ',20) \。getorcreate()分别读取两个文件进行测试,其中

DS1=spark . read . JSON(OS . path . join(data _ path,' data . 2018-01-04 '))ds2=spark . read . JSON(OS . path . join(data _ path,data . 2018-01-05 '))DS1 . Cache()# Cache * * data frame。注:的两个数据文件分别生成于1月4日和1月5日。尺寸很接近,都是3.1G。

为了防止Spark自己的Cache影响实验,在这里读取两个不同的数据文件。

计算时间:

importtimedefcalc_timing(ds,app _ name): t1=time . time()related=ds . filter(' app _ name=' % s ' ' % app _ name)_ 1 strow=related . first()T2=time . time()print ' cost time : ',T2-t1测试结果:

calc_timing(ds1,' DunZIP ')# cost time :13 . 3130679131 calc _ timing(ds2,' DunZIP ')# cost time :18 . 0472488403 calc _ timing(DS1,' DunZIP ')# cost time 33600 . 86868065796

对于DS1,虽然调用了缓存,但在* * *次执行过滤操作仍然非常慢,因为它没有被真正使用。

第二次使用DS1时,由于缓存的缘故,速度要快得多。

相比之下,DS2的两次行刑时间差别不大。

如果去Spark UI查看每个Job的执行时间,会发现读取数据文件只需要15~20s。

因此可以猜测,Spark的DataFrame读取数据后,即使执行两次相同的操作,所消耗的时间也无法减少,因为Spark默认不会将ds放入内存。

“火花缓存使用示例分析”到此结束。感谢阅读。如果你想了解更多的行业,可以关注网站。边肖将为您输出更多高质量的实用文章!

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/145793.html

(0)

相关推荐

  • 岁寒三友是指什么,人们说的“岁寒三友”是什么

    技术岁寒三友是指什么,人们说的“岁寒三友”是什么一、岁寒三友是指:松、竹经冬不凋,梅花耐寒开放,因此有“岁寒三友”之称。二、古诗:1、小松 【唐】杜荀鹤 自小刺头深草里,而今渐觉出蓬蒿。 时人不识凌云木,直待凌云始

    生活 2021年10月20日
  • javascript 中string是不是对象

    技术javascript 中string是不是对象这篇文章主要介绍了javascript 中string是不是对象,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解

    攻略 2021年11月18日
  • 加拿大与中国时差,加拿大时间和中国一样吗

    技术加拿大与中国时差,加拿大时间和中国一样吗加拿大按照时间划分为冬令时和夏令时。按照地区不同分六个时区加拿大与中国时差,当北京时间(东八区)为 24:00 时,加拿大时间分别为: 纽芬兰时区(西四区,如圣约翰斯)12:3

    生活 2021年10月27日
  • 基于ES6提供的回调函数异步编程优化

    技术基于ES6提供的回调函数异步编程优化 基于ES6提供的回调函数异步编程优化同步编程:按照顺序执行任务操作步骤 同步任务连续的,阻塞和异步编程:并行执行同一个事件循环里面的全部任务 异步任务非阻塞异

    礼包 2021年12月3日
  • 治疗咳嗽化痰偏方,有什么治咳嗽的小妙招吗

    技术治疗咳嗽化痰偏方,有什么治咳嗽的小妙招吗咳嗽可由多种原因所致,是呼吸系统疾病最常见的症状之一,应根据咳嗽的分类和性质选择适合自己病情需要的药物治疗,适合自己的才是最好的治疗咳嗽化痰偏方。咳嗽按持续时间分为急性咳嗽、亚

    生活 2021年11月1日
  • 冷造句,一阵寒风吹过我冷得怎么造句

    技术冷造句,一阵寒风吹过我冷得怎么造句1 数九寒天冷造句,冰封千里。整个世界成了只大冰箱,山冷得在颤抖,河冻得僵硬了,空气也似乎要凝固起来。2 天气冷得能把湖水结成厚冰刚烧开的水,一落地就结冰了。3 春天的风是暖暖的风,

    生活 2021年10月20日