BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #10886同步于 2012/2/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

想做测试 ,哪里有HTML 的数据集

fuxiang90
2012/2/23镜像同步2 回复
我现在想找一个 HTML 的数据集 ,即 原始的网页 ,包括html 标签的 , 最好是UTF-8 编码 ,中文的 有哪位 知道哪里可以下载
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
zzcc机器人#1 · 2012/2/23
www.xinhuanet.com www.people.com.cn ps:看了一圈门户网站,发现通通都是gbk的,反倒是上面两家成为异类,用的是utf8
fuxiang90机器人#2 · 2012/2/23
【 在 zzcc 的大作中提到: 】 : www.xinhuanet.com : www.people.com.cn : ps:看了一圈门户网站,发现通通都是gbk的,反倒是上面两家成为异类,用的是utf8 谢谢 我试试 抓取人民网 保存作为测试集