返回信息流最近写了一个将pdf转换为txt的python程序,使用的是pdfminer模块,出现了如下的问题:
1.对于知网中下载的中文pdf论文,该程序只能提取论文最后一页中的文本,却无法提取其他页面的文本。
2.对于使用latex生成的中文,却可以提取所有页面的文本。
3.使用pdfminer官网提供的在线demo(http://pdf2html.tabesugi.net:8080/),发现,给demo可以提取所有页面的文本,无论该pdf是不是latex写的。
我写的程序问题在哪里呢?百思不得其解,请大牛帮忙。
把代码贴上,请各位帮忙看一下。
import sys
import codecs
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter
from pdfminer.layout import LAParams
from cStringIO import StringIO
path='E:\pyPDF\chinese.pdf'
fp = file(path,'rb')
outfile = path+'.txt'
outfp = file(outfile,'w')
rsrcmgr = PDFResourceManager(caching = True)
retstr = StringIO()
codec = "utf-8"
laparams = LAParams()
device = TextConverter(rsrcmgr, outfp, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.get_pages(fp):
interpreter.process_page(page)
content = retstr.getvalue()
print content
device.close()
outfp.close()
这是一条镜像帖。来源:北邮人论坛 / python / #1094同步于 2014/6/17
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
求教pdfminer的使用
smalltt
2014/6/17镜像同步4 回复
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
这个?
http://www.unixuser.org/~euske/python/pdfminer/programming.html
【 在 smalltt 的大作中提到: 】
: 有pdfminer的使用文档吗?
:
这个不是
【 在 reverland 的大作中提到: 】
: 这个?
: http://www.unixuser.org/~euske/python/pdfminer/programming.html