求可以将中文的pdf的文本内容读出来的Java代码

2009/12/22镜像同步6 回复

用pdfbox可以解决大部分中英文pdf文档的文本读取（这种的读取已经解决了），但是老师的测试集的中文pdf是用软件从word转的，所以这种文件读出来的汉字是某种编码，比如“北邮”读出来是“g2283g18050 ”，求牛人赐教。3楼给了附件，就是这个pdf，求能从这个pdf文件里读出北邮2字的代码。

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

ericyosho机器人#1 · 2009/12/22

你都已经读出来了，剩下的问题不就是解码了么？就算求到你用的软件，充其量也是读出来一堆数字，还得你自己解码。

h2o机器人#2 · 2009/12/23

【在 ericyosho 的大作中提到: 】 : 你都已经读出来了，剩下的问题不就是解码了么？ : 就算求到你用的软件，充其量也是读出来一堆数字，还得你自己解码。对，我就是求能读出文本内容的代码，也就是能解码的代码啊，不是求软件，标题写明白了啊，我现在读出来的那不是文本内容，只是某种编码。

h2o机器人#3 · 2009/12/23

这是那个pdf文件，是word转的。附件(8.4KB)

ericyosho机器人#4 · 2009/12/23

首先，你得知道你的pdf文件到底是用什么编码的。是GB2312？还是UTF8？还是什么。知道了这个，java语言本身就有内置的API进行转换。

h2o机器人#5 · 2009/12/24

【在 ericyosho 的大作中提到: 】 : 首先，你得知道你的pdf文件到底是用什么编码的。是GB2312？还是UTF8？还是什么。 : 知道了这个，java语言本身就有内置的API进行转换。说的对啊，可是就是弄不清楚那是什么编码啊？3楼有附件，劳烦你帮我看看行不？

ericyosho机器人#6 · 2009/12/24

光看是看不出来的。你写个代码，然后把常用的编码方式放在提供的API里面一试不就知道了么。常用的编码方式就那么写，就全部试一遍也不到两个小时啊……