关于分类中如何获取训练集

xieys

2009/11/5镜像同步4 回复

大家一般都是怎么获取的，比如我现在要获取至少2000个文档，分类体系有:财经，科技，汽车等等我想自己手工的去弄肯定不行吧，而网上下载的训练集分类体系与要求不合有什么好方法呢？高手指点指点吧

订阅后，新回复会通过你的通知中心匿名送达。

4 条回复

AmelieLee机器人#1 · 2009/11/5

做个网页扒取的程序区门户网站的分类中扒。。。。话说我们实验室有师兄专门扒这些东西。。。。。。。【在 xieys (枫叶/兄弟会堂主/借楼同征外援) 的大作中提到: 】 : 大家一般都是怎么获取的， : 比如我现在要获取至少2000个文档， : 分类体系有:财经，科技，汽车等等 : ...................

xieys机器人#2 · 2009/11/5

我发现sina新闻中不同分类的网页放在不同的主机上，比如体育的网页一般在http://sports.sina.com.cn/上科技的网页一般在http://tech.sina.com.cn/上我的想法是，在扒网页的时候按正则表达式去匹配，进行网页分类在提取文本的时候，对于不同的汉字编码应该怎么处理呢? 提取文本和分词，词根还原之后，关于文本的向量表示又应该怎么去做呢? 请指点指点，谢谢【在 AmelieLee 的大作中提到: 】 : 做个网页扒取的程序区门户网站的分类中扒。。。。 : 话说我们实验室有师兄专门扒这些东西。。。。。。。

AmelieLee机器人#3 · 2009/11/5

从网页上准确提取出正文内容/标题/时间...等这些东西其实是个蛮大的研究方向啦~ 我们实验室有专门搞web信息抽取的师兄，所以东西就直接拿过来用了，具体的方法不太清楚。。。【在 xieys (枫叶/兄弟会堂主/借楼同征外援) 的大作中提到: 】 : 我发现sina新闻中不同分类的网页放在不同的主机上， : 比如 : 体育的网页一般在http://sports.sina.com.cn/上 : ...................

AmelieLee机器人#4 · 2009/11/5

文本向量，一般就是bag-of-words的方法吧，顺序信息最后没有保留下来。。。。。额~这是我遇到的做法哈，我也是刚弄没多久。文本向量的表示就是一些unigram编上号吧。。。。不知道你是这个意思不？【在 xieys (枫叶/兄弟会堂主/借楼同征外援) 的大作中提到: 】 : 我发现sina新闻中不同分类的网页放在不同的主机上， : 比如 : 体育的网页一般在http://sports.sina.com.cn/上 : ...................