返回信息流目的就是统计出不同的字。主要障碍在于编码问题。跪求给个小demo.[ema12]
这是一条镜像帖。来源:北邮人论坛 / python / #11070同步于 2016/1/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
python2.7从1.txt里读取中文,存入set里,并重新写进2.txt,在
kaggle
2016/1/10镜像同步38 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 iamluo 的大作中提到: 】
: http://m.blog.csdn.net/article/details?id=48027657
感谢,我刚刚看了一下,其实还是没明白,楼主菜鸟,问点基础问题。我的IDE是Pycharm,在cmd里运行py文件中文是没有问题的,在IDE里的控制台输出却是乱码,包括我运行你给的这个博客的第3条(3. 再复杂一点,中文字符串是保存在元组、列表或者字典里应该怎么输出呢?.....),我的IDE内的控制台还是乱码,很郁闷啊。
另外,还有一个问题,我从txt里读取的中文在IDE控制台里显示每次都是['\x82', '\xe7', '\xe6', '\xe9', '\x88', '\x8b']这样形式的,就不能是['字','字']这样的吗
worddic = {}
with open('1.txt') as fhdl:
for line in fhdl:
linesp = line.strip().decode('utf8','ignore')
for word in linesp:
worddic[word] = 1 if word not in worddic else worddic[word] + 1
with open('2.txt','w') as whdl:
for key in worddic:
whdl.write("%s\t%s\n" % (key.encode('utf8','ignore'),worddic[key]))
盲写的代码,没跑过,楼主可以试着泡一下(python27),decode和encode的地方改成相应编码就行
http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431664106267f12e9bef7ee14cf6a8776a479bdec9b9000
【 在 kaggle (kaggle) 的大作中提到: 】
: 不是呀[ema21]