BYR Achieve · 镜像论坛

求教pdfminer的使用

2014/6/17镜像同步4 回复

最近写了一个将pdf转换为txt的python程序，使用的是pdfminer模块，出现了如下的问题： 1.对于知网中下载的中文pdf论文，该程序只能提取论文最后一页中的文本，却无法提取其他页面的文本。 2.对于使用latex生成的中文，却可以提取所有页面的文本。 3.使用pdfminer官网提供的在线demo（http://pdf2html.tabesugi.net:8080/），发现，给demo可以提取所有页面的文本，无论该pdf是不是latex写的。我写的程序问题在哪里呢？百思不得其解，请大牛帮忙。把代码贴上，请各位帮忙看一下。 import sys import codecs from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfpage import PDFPage from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter from pdfminer.layout import LAParams from cStringIO import StringIO path='E:\pyPDF\chinese.pdf' fp = file(path,'rb') outfile = path+'.txt' outfp = file(outfile,'w') rsrcmgr = PDFResourceManager(caching = True) retstr = StringIO() codec = "utf-8" laparams = LAParams() device = TextConverter(rsrcmgr, outfp, codec=codec, laparams=laparams) interpreter = PDFPageInterpreter(rsrcmgr, device) for page in PDFPage.get_pages(fp): interpreter.process_page(page) content = retstr.getvalue() print content device.close() outfp.close()

订阅后，新回复会通过你的通知中心匿名送达。