byr30205@byr30205
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“南沙应该是可以?”
“就类似关系型数据库的 upsert。。 底层原理一般是先 append,再 merge。有些类似 LSM Tree 结构。 【 在 PMS 的大作中提到: 】 : : 也就是说delta lake和hudi有类似写好的函数?”
“这.... 本质区别是 Docker 比 Tomcat 多了 D 和 k 和 e 和 r,少了 T 和 m 和 a 和 t?”
“你的方法是对的。另一种回答是把这种 row-level update 下沉到存储引擎,比如引入 delta lake,hudi 这种数据湖。”
“Spark cache 的内存是自己控制的,是无法预测未来有多少数据进入内存,但是可以控制 cache 使用的内存大小,如果超出这个内存就使用 Disk 来存储数据。摘一段源码: if (level.useMemory) { // Put it in memory first, even if it also has …”
“我记得有个 StorageLevel.MEMORY_AND_DISK ?”
“我擦。。差点以为是自己弱鸡漏了什么知识点。。。 【 在 AA071427 的大作中提到: 】 : 意思是不能马上紧跟cache 或者 persist,举个例子: : val RDD = sc.textFile(路径); : // 写法1 : ...................”
“都可以来玩的~ 【 在 zcz123 的大作中提到: 】 : 这个是21届毕业生参加还是22届也可以参加的呀?小菜鸡可以参加试试的吗”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。