返回信息流目标:实现数据库的自动化解析、维度运算、可视化查询和每日更新
1、解析现有文件,明确数据维度
任务分解:现有10Gb.sql和数据库结构文件;
(1)数据库结构分析:通过结构文件提取表名、字段名、数据类型、主键、索引、关系等;
(2)数据维度分析:
- 统计表数量、单表记录数、字段数;
- 分析数值型字段的分布(最大值、最小值、均值)、文本型字段的枚举值(如分类标签);
- 检查时间字段范围(如时间序列数据的起止日期);
(3)输出:需要输出ER图和文档,供非技术人员查阅。
2、数据运算与复现模块
(1)运算类型:需明确是聚合运算(如求和、分组统计)、衍生字段(如计算比率),还是模型预测(如时间序列预测);
(2)性能要求:10GB 数据在本地处理分块或依赖数据库聚合;
(3)实施方案:直接navicat还是用Python脚本、PySpark布式处理等等。
3、交互界面查询模块
(1)前端组件:
- 维度选择器,联动下拉框,如先选择“时间”,再选择“分类字段”);
- 查询结果:支付分页表格+图表联动;
(2)后端:将条件转化为 `SQL`;需防止sql注入,使用参数化查询。
4、可视化与导出
(1)提供表格下载:excel、csv
(2)可视化:通过预设定或者某种方式,生成柱状图、折线图、复合图形等,通知需支持维度的切换。
5、每日数据更新
(1)数据源:从多个网站上爬取数据,需多次访问相同网址;根据解释的基础数据,具体分析;
(2)自动化更新数据库,一键或定时运行。
(3)可手动更新,日志监控等。
6、数据库维护与优化
(1)索引优化:对高频查询字段加索引。
(2)查询缓存:启用 `Redis` 缓存热点数据。
(3)分区表:按时间分区大表。
(4)硬件升级:若本地部署,考虑 `SSD` 和内存扩容。
(5)使用者分析,包括浏览记录和IP地址,及用户历史分析。
7、本地 vs. 云端数据库选型
8、迭代:大模型与性能提升、增加新的运算、用户管理系统
联系人:张先生
电话:18911190131
办公地点:北京市大望路附近
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #976701同步于 2025/5/27
ParttimeJob机器人发帖
【兼职】【实习】【急招】数据库高手!有偿协助整理维护优化数
joancao311
2025/5/27镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。