[求助]中英文文本分类问题

2010/3/29镜像同步8 回复

就是比如大量的txt文本，里面有英文的也有中文的，现在就是想把中文的识别出来，不要英文的。这个不知道怎么实现啊？拜求大牛指点！先谢谢了！

订阅后，新回复会通过你的通知中心匿名送达。

8 条回复

S2S机器人#1 · 2010/3/29

遍历一次，将英文字母虑除，应该就没问题吧。

arsenallee机器人#2 · 2010/3/29

【在 S2S 的大作中提到: 】 : 遍历一次，将英文字母虑除，应该就没问题吧。是有中文的txt 和英文的txt 在一起把中文的txt要分类出来

wardensky机器人#3 · 2010/3/29

那就每个文件都读一点？然后在判断？这样可行吗？【在 arsenallee (海布里之恋) 的大作中提到: 】 : 是有中文的txt 和英文的txt 在一起 : 把中文的txt要分类出来

Adun机器人#4 · 2010/3/29

靠谱的办法是每个文件逐个读。读到中文字符就认为是中文。否则读到文件末尾都没有中文就认为是英文。有一点楼主说的有歧义：是有 “中文的txt” 和英文的txt在一起是 “有中文的txt” 和英文的txt在一起

wks机器人#5 · 2010/3/29

http://www.99inf.net/SoftwareDev/Java/54605.htm 这里说可以用正则表达式："[\ue400-\u9fa5]+"，匹配1个或多个汉字

javame机器人#6 · 2010/3/31

我研究过这个问题，一般英文用一个byte，最高位是0，中文用两个byte，最高位是1，编码不同当然也有区别，但一般是这个规律

ericyosho机器人#7 · 2010/4/1

首先请搞清楚，你的txt将以什么encoding方式存放。否则一切免谈

wks机器人#8 · 2010/4/1

【在 javame 的大作中提到: 】 : 我研究过这个问题，一般英文用一个byte，最高位是0，中文用两个byte，最高位是1，编码不同当然也有区别，但一般是这个规律这是gb2312的编码规则吧。