返回信息流就是比如大量的txt文本,里面有英文的也有中文的,现在就是想把中文的识别出来,不要英文的。
这个不知道怎么实现啊?
拜求大牛指点!
先谢谢了!
这是一条镜像帖。来源:北邮人论坛 / java / #13757同步于 2010/3/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
[求助]中英文文本分类问题
arsenallee
2010/3/29镜像同步8 回复
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
【 在 S2S 的大作中提到: 】
: 遍历一次,将英文字母虑除,应该就没问题吧。
是有中文的txt 和英文的txt 在一起
把中文的txt要分类出来
那就每个文件都读一点?然后在判断?这样可行吗?
【 在 arsenallee (海布里之恋) 的大作中提到: 】
: 是有中文的txt 和英文的txt 在一起
: 把中文的txt要分类出来
靠谱的办法是每个文件逐个读。读到中文字符就认为是中文。否则读到文件末尾都没有中文就认为是英文。
有一点楼主说的有歧义:
是有 “中文的txt” 和英文的txt在一起
是 “有中文的txt” 和英文的txt在一起
http://www.99inf.net/SoftwareDev/Java/54605.htm
这里说可以用正则表达式:"[\ue400-\u9fa5]+",匹配1个或多个汉字
【 在 javame 的大作中提到: 】
: 我研究过这个问题,一般英文用一个byte,最高位是0,中文用两个byte,最高位是1,编码不同当然也有区别,但一般是这个规律
这是gb2312的编码规则吧。