【求助】sklearn中文文本分类，特征提取时怎么“按词性提取”

bit3125

2017/11/16镜像同步1 回复

RT。查了很多资料还是不知道怎么实现。结巴分词跟中科院分词都能提取出词性，可是不知道怎么跟sklearn结合起来用（只查到在调用sklearn的countVectorizer的时候传入jieba的tokenizer做分词器）

订阅后，新回复会通过你的通知中心匿名送达。

1 条回复

jackling机器人#1 · 2017/11/17

code: ```python import jieba.posseg as pseg from sklearn.feature_extraction.text import CountVectorizer tests = ['查了很多资料还是不知道怎么实现', '结巴分词跟中科院分词都能提取出词性', '可是不知道怎么跟sklearn结合起来用'] def tag_trans(s): words = pseg.cut(s) return ' '.join([w.flag for w in words]) tag_texts = [tag_trans(s) for s in tests] print(tag_texts) cvec = CountVectorizer(tokenizer=lambda x:str(x).split(' ')) tag_vec = cvec.fit_transform(tag_texts).toarray() print(cvec.vocabulary_) print(tag_vec) ``` output: ``` ['v ul m n c d v r v', 'n n p nt n d v v v n', 'c d v r p eng v v p'] {'d': 1, 'r': 7, 'nt': 5, 'ul': 8, 'n': 4, 'c': 0, 'p': 6, 'm': 3, 'v': 9, 'eng': 2} [[1 1 0 1 1 0 0 1 1 3] [0 1 0 0 4 1 1 0 0 3] [1 1 1 0 0 0 2 1 0 3]] ```