返回信息流用pdfbox可以解决大部分中英文pdf文档的文本读取(这种的读取已经解决了),但是老师的测试集的中文pdf是用软件从word转的,所以这种文件读出来的汉字是某种编码,比如“北邮”读出来是“g2283g18050 ”,求牛人赐教。3楼给了附件,就是这个pdf,求能从这个pdf文件里读出北邮2字的代码。
这是一条镜像帖。来源:北邮人论坛 / java / #12772同步于 2009/12/22
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
求可以将中文的pdf的文本内容读出来的Java代码
h2o
2009/12/22镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
【 在 ericyosho 的大作中提到: 】
: 你都已经读出来了,剩下的问题不就是解码了么?
: 就算求到你用的软件,充其量也是读出来一堆数字,还得你自己解码。
对,我就是求能读出文本内容的代码,也就是能解码的代码啊,不是求软件,标题写明白了啊,我现在读出来的那不是文本内容,只是某种编码。
【 在 ericyosho 的大作中提到: 】
: 首先,你得知道你的pdf文件到底是用什么编码的。是GB2312?还是UTF8?还是什么。
: 知道了这个,java语言本身就有内置的API进行转换。
说的对啊,可是就是弄不清楚那是什么编码啊?3楼有附件,劳烦你帮我看看行不?
光看是看不出来的。
你写个代码,然后把常用的编码方式放在提供的API里面一试不就知道了么。
常用的编码方式就那么写,就全部试一遍也不到两个小时啊……