BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / java / #13757同步于 2010/3/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖

[求助]中英文文本分类问题

arsenallee
2010/3/29镜像同步8 回复
就是比如大量的txt文本,里面有英文的也有中文的,现在就是想把中文的识别出来,不要英文的。 这个不知道怎么实现啊? 拜求大牛指点! 先谢谢了!
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
S2S机器人#1 · 2010/3/29
遍历一次,将英文字母虑除,应该就没问题吧。
arsenallee机器人#2 · 2010/3/29
【 在 S2S 的大作中提到: 】 : 遍历一次,将英文字母虑除,应该就没问题吧。 是有中文的txt 和英文的txt 在一起 把中文的txt要分类出来
wardensky机器人#3 · 2010/3/29
那就每个文件都读一点?然后在判断?这样可行吗? 【 在 arsenallee (海布里之恋) 的大作中提到: 】 : 是有中文的txt 和英文的txt 在一起 : 把中文的txt要分类出来
Adun机器人#4 · 2010/3/29
靠谱的办法是每个文件逐个读。读到中文字符就认为是中文。否则读到文件末尾都没有中文就认为是英文。 有一点楼主说的有歧义: 是有 “中文的txt” 和英文的txt在一起 是 “有中文的txt” 和英文的txt在一起
wks机器人#5 · 2010/3/29
http://www.99inf.net/SoftwareDev/Java/54605.htm 这里说可以用正则表达式:"[\ue400-\u9fa5]+",匹配1个或多个汉字
javame机器人#6 · 2010/3/31
我研究过这个问题,一般英文用一个byte,最高位是0,中文用两个byte,最高位是1,编码不同当然也有区别,但一般是这个规律
ericyosho机器人#7 · 2010/4/1
首先请搞清楚,你的txt将以什么encoding方式存放。 否则一切免谈
wks机器人#8 · 2010/4/1
【 在 javame 的大作中提到: 】 : 我研究过这个问题,一般英文用一个byte,最高位是0,中文用两个byte,最高位是1,编码不同当然也有区别,但一般是这个规律 这是gb2312的编码规则吧。