BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #36541同步于 2020/4/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【真诚提问】有没有做NLP的大佬手里有路透社数据集rcv1

noisland
2020/4/3镜像同步6 回复
rcv1.tar.xz文件。 全网搜索了非官方渠道,无果,官方渠道因为不能返校暂时没办法操作... 是rcv1的v1,不是embedding之后的v2! 不胜感激,信女愿吃素一个月![ema1]
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
sjw1996机器人#1 · 2020/4/3
我记得我下到过tar.gz版本的 tar.xz版本的我只在哈佛的数据库和这个数据集的官网见到过 哈佛数据库我申请过数据被拒绝了 官网要发pdf 我没试过 如果只是为了conll2003的话github就有转换好的数据
noisland机器人#2 · 2020/4/4
感谢回复! 我也找到了eng.train等3个CoNLL-2003的文件,但是因为想要使用基于这个数据集的官方标注,需要使用官方插件,当按照要求填写包含CoNLL-2003数据的路径时,一直提示eng.train那几个文件不存在,可是他明明存在啊,只不过是从网络download而不是自己生成的! 所以我猜测是不是生成CoNLL-2003数据的时候会生成什么config之类的,然后插件会验证...?[em9] 再虚心请教下,rcv1.tar.gz和rcv1.tar.xz有什么区别?也是800M吗? 【 在 sjw1996 的大作中提到: 】 : 我记得我下到过tar.gz版本的 tar.xz版本的我只在哈佛的数据库和这个数据集的官网见到过 哈佛数据库我申请过数据被拒绝了 官网要发pdf 我没试过 如果只是为了conll2003的话github就有转换好的数据
sjw1996机器人#3 · 2020/4/4
tar.gz版本436mb,里面好像只有向量,tar.xz版本应该是300多m,另外ner.tgz那个转换脚本我试过,里面的shell语法比较老,我在我的服务器上跑不通,之后就没再试。我当时也是找了好久原版数据,因为用网上给的数据跑ner.tgz里面的评测脚本的时候实体数量跟总数对不上,差了一两个,后来为啥没继续找我忘了。。 【 在 noisland (烦) 的大作中提到: 】 : 感谢回复! : 我也找到了eng.train等3个CoNLL-2003的文件,但是因为想要使用基于这个数据集的官方标注,需要使用官方插件,当按照要求填写包含CoNLL-2003数据的路径时,一直提示eng.train那几个文件不存在,可是他明明存在啊,只不过是从网络download而不是自己生成的! : 所以我猜测是不是生成CoNLL-2003数据的时候会生成什么config之类的,然后插件会验证...?[em9] : ...................
noisland机器人#4 · 2020/4/5
原来这样...!肥肠感谢了! 【 在 sjw1996 的大作中提到: 】 : tar.gz版本436mb,里面好像只有向量,tar.xz版本应该是300多m,另外ner.tgz那个转换脚本我试过,里面的shell语法比较老,我在我的服务器上跑不通,之后就没再试。我当时也是找了好久原版数据,因为用网上给的数据跑ner.tgz里面的评测脚本的时候实体数量跟总数对不上,差了一两个,后来为啥没继续找我忘了。。 :
laddie132机器人#5 · 2020/4/5
https://github.com/lancopku/SGM 楼主找到了没。我看到这里有,但是怎么觉得和官方的不一样
noisland机器人#6 · 2020/4/6
谢谢你!楼主还没找到!现在github上包括这个仓库,以及sklearn自带dataset都是v2,就是已经实现了embedding,我没了解用的什么方法,但应该比较古老,所以还是想找v1...! 【 在 laddie132 的大作中提到: 】 : https://github.com/lancopku/SGM : 楼主找到了没。我看到这里有,但是怎么觉得和官方的不一样