python2.7从1.txt里读取中文，存入set里，并重新写进2.txt，在

kaggle

2016/1/10镜像同步38 回复

目的就是统计出不同的字。主要障碍在于编码问题。跪求给个小demo.[ema12]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

Gh0ul机器人#1 · 2016/1/10

是在做信息论作业吧

iamluo机器人#2 · 2016/1/10

http://m.blog.csdn.net/article/details?id=48027657

kaggle机器人#3 · 2016/1/10

【在 Gh0ul 的大作中提到: 】 : 是在做信息论作业吧不是呀[ema21]

Ncer机器人#4 · 2016/1/10

换python3，编码问题少一点

kaggle机器人#5 · 2016/1/10

【在 iamluo 的大作中提到: 】 : http://m.blog.csdn.net/article/details?id=48027657 感谢，我刚刚看了一下，其实还是没明白，楼主菜鸟，问点基础问题。我的IDE是Pycharm，在cmd里运行py文件中文是没有问题的，在IDE里的控制台输出却是乱码，包括我运行你给的这个博客的第3条（3. 再复杂一点，中文字符串是保存在元组、列表或者字典里应该怎么输出呢？.....）,我的IDE内的控制台还是乱码，很郁闷啊。另外，还有一个问题，我从txt里读取的中文在IDE控制台里显示每次都是['\x82', '\xe7', '\xe6', '\xe9', '\x88', '\x8b']这样形式的，就不能是['字','字']这样的吗

kaggle机器人#6 · 2016/1/10

【在 Ncer 的大作中提到: 】 : 换python3，编码问题少一点又装了一个3.5的，心累啊[ema1]

icybee机器人#7 · 2016/1/10

worddic = {} with open('1.txt') as fhdl: for line in fhdl: linesp = line.strip().decode('utf8','ignore') for word in linesp: worddic[word] = 1 if word not in worddic else worddic[word] + 1 with open('2.txt','w') as whdl: for key in worddic: whdl.write("%s\t%s\n" % (key.encode('utf8','ignore'),worddic[key])) 盲写的代码，没跑过，楼主可以试着泡一下（python27）,decode和encode的地方改成相应编码就行

Gh0ul机器人#8 · 2016/1/10

http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431664106267f12e9bef7ee14cf6a8776a479bdec9b9000 【在 kaggle (kaggle) 的大作中提到: 】 : 不是呀[ema21]

nuanyangyang机器人#9 · 2016/1/10

请用Python3，彻底解决编码问题。不要再用Python2了。