返回信息流每天生成临时数据 需要和 数据库的固定数据做join groupby,临时每次导入DB要很久用完还要删,有没有内存数据可以做到相同功能 导入很快呢?
这是一条镜像帖。来源:北邮人论坛 / database / #11780同步于 2022/1/5
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Database机器人发帖
请问有没有带JOIN功能的内存数据库
hongbaoshu
2022/1/5镜像同步31 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
ES(elasticsearch)、mongodb、influxdb
es:海量数据索引
mongodb:
influxdb:时序数据库,适合做统计
【 在 hongbaoshu 的大作中提到: 】
: 每天生成临时数据 需要和 数据库的固定数据做join groupby,临时每次导入DB要很久用完还要删,有没有内存数据可以做到相同功能 导入很快呢?
固定数据是常驻在数据库的数据用来 筛选+group by的固定不动的数据, 临时数据是value每天计算完输出后就可以删了
【 在 namowen 的大作中提到: 】
: 用完还要删是什么意思。固定数据从哪来
你不给出schema来没人能给你明确的答案。
只能说一写数据模型设计的原则,如果你的数据确实是relational的,那就用RDBMS,这是躲不开的。如果关系不复杂且OLAP需求非常简单,比如根据几个固定的dimensions做简单聚合,可以考虑用tsdb。但有一点是明确的,NoSQL和RDBMS本来就是权衡的结果,性能和功能是不可得兼的。
至于2楼提到的ES是个search engine,甚至无法保证OLAP结果的正确性。
每天生成几千万条-几亿条 数据 用python往数据库写输入数据+索引要2个小时以上,想把这个时间缩短到20分钟以内,但是groupby又不想变慢。
【 在 mhtt1123 的大作中提到: 】
: 没理解问题,比如用 MySQL。固定数据一个表,临时数据一个表。每天把临时表干掉就可以?
请问大神 每天 几亿条数据从CSV文件(类似excel那种多列 主键也是多列) 导入库+建索引+join一百万条数据的主表+where groupby sum 全部时间加起来一小时以内的方案么? 编程越少越好。
【 在 Zelda 的大作中提到: 】
: 你不给出schema来没人能给你明确的答案。
: 只能说一写数据模型设计的原则,如果你的数据确实是relational的,那就用RDBMS,这是躲不开的。如果关系不复杂且OLAP需求非常简单,比如根据几个固定的dimensions做简单聚合,可以考虑用tsdb。但有一点是明确的,NoSQL和RDBMS本来就是权衡的结果,性能和功能是不可得兼的。
: 至于2楼提到的ES是个search engine,甚至无法保证OLAP结果的正确性。