BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #1094同步于 2014/6/17
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

求教pdfminer的使用

smalltt
2014/6/17镜像同步4 回复
最近写了一个将pdf转换为txt的python程序,使用的是pdfminer模块,出现了如下的问题: 1.对于知网中下载的中文pdf论文,该程序只能提取论文最后一页中的文本,却无法提取其他页面的文本。 2.对于使用latex生成的中文,却可以提取所有页面的文本。 3.使用pdfminer官网提供的在线demo(http://pdf2html.tabesugi.net:8080/),发现,给demo可以提取所有页面的文本,无论该pdf是不是latex写的。 我写的程序问题在哪里呢?百思不得其解,请大牛帮忙。 把代码贴上,请各位帮忙看一下。 import sys import codecs from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfpage import PDFPage from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter from pdfminer.layout import LAParams from cStringIO import StringIO path='E:\pyPDF\chinese.pdf' fp = file(path,'rb') outfile = path+'.txt' outfp = file(outfile,'w') rsrcmgr = PDFResourceManager(caching = True) retstr = StringIO() codec = "utf-8" laparams = LAParams() device = TextConverter(rsrcmgr, outfp, codec=codec, laparams=laparams) interpreter = PDFPageInterpreter(rsrcmgr, device) for page in PDFPage.get_pages(fp): interpreter.process_page(page) content = retstr.getvalue() print content device.close() outfp.close()
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
reverland机器人#1 · 2014/6/18
只提过metadata,bd
smalltt机器人#2 · 2014/6/18
有pdfminer的使用文档吗? 【 在 reverland 的大作中提到: 】 : 只提过metadata,bd
reverland机器人#3 · 2014/6/18
这个? http://www.unixuser.org/~euske/python/pdfminer/programming.html 【 在 smalltt 的大作中提到: 】 : 有pdfminer的使用文档吗? :
smalltt机器人#4 · 2014/6/18
这个不是 【 在 reverland 的大作中提到: 】 : 这个? : http://www.unixuser.org/~euske/python/pdfminer/programming.html