返回信息流rcv1.tar.xz文件。
全网搜索了非官方渠道,无果,官方渠道因为不能返校暂时没办法操作...
是rcv1的v1,不是embedding之后的v2!
不胜感激,信女愿吃素一个月![ema1]
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #36541同步于 2020/4/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【真诚提问】有没有做NLP的大佬手里有路透社数据集rcv1
noisland
2020/4/3镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
我记得我下到过tar.gz版本的 tar.xz版本的我只在哈佛的数据库和这个数据集的官网见到过 哈佛数据库我申请过数据被拒绝了 官网要发pdf 我没试过 如果只是为了conll2003的话github就有转换好的数据
感谢回复!
我也找到了eng.train等3个CoNLL-2003的文件,但是因为想要使用基于这个数据集的官方标注,需要使用官方插件,当按照要求填写包含CoNLL-2003数据的路径时,一直提示eng.train那几个文件不存在,可是他明明存在啊,只不过是从网络download而不是自己生成的!
所以我猜测是不是生成CoNLL-2003数据的时候会生成什么config之类的,然后插件会验证...?[em9]
再虚心请教下,rcv1.tar.gz和rcv1.tar.xz有什么区别?也是800M吗?
【 在 sjw1996 的大作中提到: 】
: 我记得我下到过tar.gz版本的 tar.xz版本的我只在哈佛的数据库和这个数据集的官网见到过 哈佛数据库我申请过数据被拒绝了 官网要发pdf 我没试过 如果只是为了conll2003的话github就有转换好的数据
tar.gz版本436mb,里面好像只有向量,tar.xz版本应该是300多m,另外ner.tgz那个转换脚本我试过,里面的shell语法比较老,我在我的服务器上跑不通,之后就没再试。我当时也是找了好久原版数据,因为用网上给的数据跑ner.tgz里面的评测脚本的时候实体数量跟总数对不上,差了一两个,后来为啥没继续找我忘了。。
【 在 noisland (烦) 的大作中提到: 】
: 感谢回复!
: 我也找到了eng.train等3个CoNLL-2003的文件,但是因为想要使用基于这个数据集的官方标注,需要使用官方插件,当按照要求填写包含CoNLL-2003数据的路径时,一直提示eng.train那几个文件不存在,可是他明明存在啊,只不过是从网络download而不是自己生成的!
: 所以我猜测是不是生成CoNLL-2003数据的时候会生成什么config之类的,然后插件会验证...?[em9]
: ...................
原来这样...!肥肠感谢了!
【 在 sjw1996 的大作中提到: 】
: tar.gz版本436mb,里面好像只有向量,tar.xz版本应该是300多m,另外ner.tgz那个转换脚本我试过,里面的shell语法比较老,我在我的服务器上跑不通,之后就没再试。我当时也是找了好久原版数据,因为用网上给的数据跑ner.tgz里面的评测脚本的时候实体数量跟总数对不上,差了一两个,后来为啥没继续找我忘了。。
:
谢谢你!楼主还没找到!现在github上包括这个仓库,以及sklearn自带dataset都是v2,就是已经实现了embedding,我没了解用的什么方法,但应该比较古老,所以还是想找v1...!
【 在 laddie132 的大作中提到: 】
: https://github.com/lancopku/SGM
: 楼主找到了没。我看到这里有,但是怎么觉得和官方的不一样