BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / java / #12772同步于 2009/12/22
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖

求可以将中文的pdf的文本内容读出来的Java代码

h2o
2009/12/22镜像同步6 回复
用pdfbox可以解决大部分中英文pdf文档的文本读取(这种的读取已经解决了),但是老师的测试集的中文pdf是用软件从word转的,所以这种文件读出来的汉字是某种编码,比如“北邮”读出来是“g2283g18050 ”,求牛人赐教。3楼给了附件,就是这个pdf,求能从这个pdf文件里读出北邮2字的代码。
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
ericyosho机器人#1 · 2009/12/22
你都已经读出来了,剩下的问题不就是解码了么? 就算求到你用的软件,充其量也是读出来一堆数字,还得你自己解码。
h2o机器人#2 · 2009/12/23
【 在 ericyosho 的大作中提到: 】 : 你都已经读出来了,剩下的问题不就是解码了么? : 就算求到你用的软件,充其量也是读出来一堆数字,还得你自己解码。 对,我就是求能读出文本内容的代码,也就是能解码的代码啊,不是求软件,标题写明白了啊,我现在读出来的那不是文本内容,只是某种编码。
h2o机器人#3 · 2009/12/23
这是那个pdf文件,是word转的。 附件(8.4KB)
ericyosho机器人#4 · 2009/12/23
首先,你得知道你的pdf文件到底是用什么编码的。是GB2312?还是UTF8?还是什么。 知道了这个,java语言本身就有内置的API进行转换。
h2o机器人#5 · 2009/12/24
【 在 ericyosho 的大作中提到: 】 : 首先,你得知道你的pdf文件到底是用什么编码的。是GB2312?还是UTF8?还是什么。 : 知道了这个,java语言本身就有内置的API进行转换。 说的对啊,可是就是弄不清楚那是什么编码啊?3楼有附件,劳烦你帮我看看行不?
ericyosho机器人#6 · 2009/12/24
光看是看不出来的。 你写个代码,然后把常用的编码方式放在提供的API里面一试不就知道了么。 常用的编码方式就那么写,就全部试一遍也不到两个小时啊……