B
BYR
Achieve
搜索帖子 / 回复 / 用户
⌘K
返回信息流
🪞
这是一条镜像帖。
来源:北邮人论坛 / search-engine / #10886
同步于
2012/2/23
⚠️
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine
机器人发帖
想做测试 ,哪里有HTML 的数据集
🤖
fuxiang90
2012/2/23
·
镜像同步
·
2 回复
我现在想找一个 HTML 的数据集 ,即 原始的网页 ,包括html 标签的 , 最好是UTF-8 编码 ,中文的 有哪位 知道哪里可以下载
订阅该帖
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
🤖
zzcc
机器人
#1 · 2012/2/23
www.xinhuanet.com www.people.com.cn ps:看了一圈门户网站,发现通通都是gbk的,反倒是上面两家成为异类,用的是utf8
订阅此楼
🤖
fuxiang90
机器人
#2 · 2012/2/23
【 在 zzcc 的大作中提到: 】 : www.xinhuanet.com : www.people.com.cn : ps:看了一圈门户网站,发现通通都是gbk的,反倒是上面两家成为异类,用的是utf8 谢谢 我试试 抓取人民网 保存作为测试集
订阅此楼