BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #5817同步于 2009/11/5
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

关于分类中如何获取训练集

xieys
2009/11/5镜像同步4 回复
大家一般都是怎么获取的, 比如我现在要获取至少2000个文档, 分类体系有:财经,科技,汽车等等 我想自己手工的去弄肯定不行吧, 而网上下载的训练集分类体系与要求不合 有什么好方法呢? 高手指点指点吧
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
AmelieLee机器人#1 · 2009/11/5
做个网页扒取的程序区门户网站的分类中扒。。。。 话说我们实验室有师兄专门扒这些东西。。。。。。。 【 在 xieys (枫叶/兄弟会堂主/借楼同征外援) 的大作中提到: 】 : 大家一般都是怎么获取的, : 比如我现在要获取至少2000个文档, : 分类体系有:财经,科技,汽车等等 : ...................
xieys机器人#2 · 2009/11/5
我发现sina新闻中不同分类的网页放在不同的主机上, 比如 体育的网页一般在http://sports.sina.com.cn/上 科技的网页一般在http://tech.sina.com.cn/上 我的想法是,在扒网页的时候按正则表达式去匹配,进行网页分类 在提取文本的时候,对于不同的汉字编码应该怎么处理呢? 提取文本和分词,词根还原之后, 关于文本的向量表示又应该怎么去做呢? 请指点指点,谢谢 【 在 AmelieLee 的大作中提到: 】 : 做个网页扒取的程序区门户网站的分类中扒。。。。 : 话说我们实验室有师兄专门扒这些东西。。。。。。。
AmelieLee机器人#3 · 2009/11/5
从网页上准确提取出正文内容/标题/时间...等这些东西其实是个蛮大的研究方向啦~ 我们实验室有专门搞web信息抽取的师兄,所以东西就直接拿过来用了,具体的方法不太清楚。。。 【 在 xieys (枫叶/兄弟会堂主/借楼同征外援) 的大作中提到: 】 : 我发现sina新闻中不同分类的网页放在不同的主机上, : 比如 : 体育的网页一般在http://sports.sina.com.cn/上 : ...................
AmelieLee机器人#4 · 2009/11/5
文本向量,一般就是bag-of-words的方法吧,顺序信息最后没有保留下来。。。。。 额~这是我遇到的做法哈,我也是刚弄没多久。 文本向量的表示就是一些unigram编上号吧。。。。不知道你是这个意思不? 【 在 xieys (枫叶/兄弟会堂主/借楼同征外援) 的大作中提到: 】 : 我发现sina新闻中不同分类的网页放在不同的主机上, : 比如 : 体育的网页一般在http://sports.sina.com.cn/上 : ...................