PMS@PMS
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“【 在 IeohMingChan 的大作中提到: 】 : 愿逝者安息严惩凶手 现在我国大部分地区的司法实践是蓄意谋杀+被害者家属不谅解才能死刑,不知道北京这里具体的司法实践 还有就是看凶手是被认定蓄意谋杀还是激情杀人了”
“【 在 byr30205 的大作中提到: 】 : 这看 output format 是怎么实现的把。。。 parquet”
“【 在 mWX301655 的大作中提到: 】 : 这很正常吧,一般Parquet,orc 这种有strip的列式存储格式在写一半失败了之后会破坏原有的文件格式。要接上次错误失败的地方继续写比较麻烦,而且不一定保证能恢复。所以一般的容错方式就是文件粒度的重写。 有什么能自动清掉已经写错的数据的方式?”
“【 在 terrorblade 的大作中提到: 】 : 生成数据分区的时候 同时生成一个空的done分区,扫描的时候 扫最新的done分区 找相应的数据分区去处理 是的,我说的就是这种思路”
“【 在 byr30205 的大作中提到: 】 : 你的方法是对的。另一种回答是把这种 row-level update 下沉到存储引擎,比如引入 delta lake,hudi 这种数据湖。 也就是说delta lake和hudi有类似写好的函数?”
“【 在 AA071427 的大作中提到: 】 : : 写法2,cache的RDD用一个变量表示了,后续复用的时候就可以使用。 : 写法1,尽管cache了,但是没法复用 谢谢学长,这下明白了”
“【 在 dtxqhy 的大作中提到: 】 : 多买几块吧 就是要多几个移动硬盘的意思”
“【 在 xxxxzr 的大作中提到: 】 : osx和windows都要用,建议一部分用exFAT作和OSX的数据交换,另一部分划成NTFS 我的意思是同样的文件,既要跟windows读写,又要跟mac读写,不准备划两个区域,只想在一个区域上”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。