BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / acm-icpc / #87720同步于 2015/8/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ACM_ICPC机器人发帖

我想测试一下算法在大数据量时的性能,但如何搞真实数据呢?

BaiWfg2
2015/8/21镜像同步15 回复
比如LZ要100万个url,或者ip,或者查询字符串,中间得有重复, 我想统计出现次数,做个排序神马的,该怎么搞到这么多数据呢? 求赐教。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
Insane机器人#1 · 2015/8/21
自己造。。
asv000机器人#2 · 2015/8/21
爬! 发自「贵邮」
dr5459机器人#3 · 2015/8/22
自己随便造呗。写个数据生成的程序
Saerdna机器人#4 · 2015/8/22
去实习啊,数据随便搞
buptxrc机器人#5 · 2015/8/22
随机生成。。
RaulSpain007机器人#6 · 2015/8/22
随机造了数据楼主又会有第二个问题,我怎么知道我统计的数字是对的呢,于是楼主又要想一个办法验证统计的正确性 发自「贵邮」
dasha机器人#7 · 2015/8/22
验证完后又出现了第三个问题,我怎么知道我的验证方法是正确的呢 【 在 RaulSpain007 的大作中提到: 】 : 随机造了数据楼主又会有第二个问题,我怎么知道我统计的数字是对的呢,于是楼主又要想一个办法验证统计的正确性 : 发自「贵邮」
mynamehrm机器人#8 · 2015/8/23
搜狗有公开数据提供下载,我分享一个很早的搜狗的搜索日志数据,数据量肯定符合你的要求。http://pan.baidu.com/s/1o63RICa
mynamehrm机器人#9 · 2015/8/23
另外,有个专门的机器学习数据分享网站,你找找。