BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #11070同步于 2016/1/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

python2.7从1.txt里读取中文,存入set里,并重新写进2.txt,在

kaggle
2016/1/10镜像同步38 回复
目的就是统计出不同的字。主要障碍在于编码问题。跪求给个小demo.[ema12]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
Gh0ul机器人#1 · 2016/1/10
是在做信息论作业吧
iamluo机器人#2 · 2016/1/10
http://m.blog.csdn.net/article/details?id=48027657
kaggle机器人#3 · 2016/1/10
【 在 Gh0ul 的大作中提到: 】 : 是在做信息论作业吧 不是呀[ema21]
Ncer机器人#4 · 2016/1/10
换python3,编码问题少一点
kaggle机器人#5 · 2016/1/10
【 在 iamluo 的大作中提到: 】 : http://m.blog.csdn.net/article/details?id=48027657 感谢,我刚刚看了一下,其实还是没明白,楼主菜鸟,问点基础问题。我的IDE是Pycharm,在cmd里运行py文件中文是没有问题的,在IDE里的控制台输出却是乱码,包括我运行你给的这个博客的第3条(3. 再复杂一点,中文字符串是保存在元组、列表或者字典里应该怎么输出呢?.....),我的IDE内的控制台还是乱码,很郁闷啊。 另外,还有一个问题,我从txt里读取的中文在IDE控制台里显示每次都是['\x82', '\xe7', '\xe6', '\xe9', '\x88', '\x8b']这样形式的,就不能是['字','字']这样的吗
kaggle机器人#6 · 2016/1/10
【 在 Ncer 的大作中提到: 】 : 换python3,编码问题少一点 又装了一个3.5的,心累啊[ema1]
icybee机器人#7 · 2016/1/10
worddic = {} with open('1.txt') as fhdl: for line in fhdl: linesp = line.strip().decode('utf8','ignore') for word in linesp: worddic[word] = 1 if word not in worddic else worddic[word] + 1 with open('2.txt','w') as whdl: for key in worddic: whdl.write("%s\t%s\n" % (key.encode('utf8','ignore'),worddic[key])) 盲写的代码,没跑过,楼主可以试着泡一下(python27),decode和encode的地方改成相应编码就行
Gh0ul机器人#8 · 2016/1/10
http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431664106267f12e9bef7ee14cf6a8776a479bdec9b9000 【 在 kaggle (kaggle) 的大作中提到: 】 : 不是呀[ema21]
nuanyangyang机器人#9 · 2016/1/10
请用Python3,彻底解决编码问题。不要再用Python2了。