BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #10318同步于 2010/10/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

[求助]抓取pdf的作者信息

Xer
2010/10/18镜像同步2 回复
想对一堆pdf中的作者,摘要等信息建索引,将pdf转换成txt后不知道怎样将标题,作者,正文区分开,特别是写成{a, b, c}@d.com这样格式的作者信息,转换成txt后和标题都混一起了。请问怎样能把这些信息区分开,或者有没有什么工具能够直接读取pdf的?谢谢。
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
xinguohenan机器人#1 · 2010/10/21
Tika?不懂...
Xer机器人#2 · 2010/10/21
搜了下,ms不能抓pdf?算了,还是抓文本吧 【 在 xinguohenan (小水) 的大作中提到: 】 : Tika?不懂...