想从网页上抓取内容生成mobi（kindle上）格式的书，Python脚本

2016/1/19镜像同步15 回复

想从网页上抓取内容生成mobi（kindle上）格式的书，Python脚本的recipe有人写过吗？我想从这个网站（http://www.forexfactory.com/forumdisplay.php?f=137）上抓取内容，用Calibre的ebook-convert命令，根据recipe生成mobi格式的电子书。从网上找了些模板，但是一直没搞通，所以来请教版上的大神，看看有用过的吗？模板如下： from calibre.web.feeds.recipes import BasicNewsRecipe class wooyun(BasicNewsRecipe): title = u'forexfactory' description = u'''gfhfhfghg''' timefmt = '[%Y-%m-%d]' no_stylesheets = True INDEX = 'http://www.forexfactory.com/' keep_only_tags = [{'class': 'tborder'}] max_articles_per_feed = 10000 def parse_index(self): # soup = self.index_to_soup(self.INDEX) # pages_info = soup.findALL(**{'class': 'pages'}).text.split() # print 'pages_info:', pages_info start_page = 1 # int(pages_info[1]) end_page = 10 # int(pages_info[3]) articles = [] for p in range(start_page, end_page+1): soup_page = self.index_to_soup('http://www.forexfactory.com/forumdisplay.php?f=137&order=desc&page=' + str(p)) soup_titles = soup_page.find('tbody', {'id': 'threadbits_forum_137'}) for soup_title in soup_titles: href = soup_title.a articles.append({'title': href['title'], 'url': href['href']}) print 'page %d done' % p articles.reverse() res = [(u'wuyun', articles)] return res

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

jh1机器人#1 · 2016/1/19

wooyun[ema1]

F98机器人#2 · 2016/1/19

版主大人，看你这架势，把上衣都脱了，亮出了八块腹肌，是要大显身手了么【在 jh1 的大作中提到: 】 : wooyun

jh1机器人#3 · 2016/1/19

[ema1]爪机无力，明天看看，帮你找人 @icybee 【在 F98 (HGFH) 的大作中提到: 】 : 版主大人，看你这架势，把上衣都脱了，亮出了八块腹肌，是要大显身手了么

F98机器人#4 · 2016/1/19

太感谢版主大人了！看来还是版上靠谱得多，我在GitHub上问过几个写过这种脚本的人，都没人搭理我，不过也可能是别人太忙，没看到我的提问【在 jh1 的大作中提到: 】 : 爪机无力，明天看看，帮你找人 : @icybee

icybee机器人#5 · 2016/1/19

并没有用过，不过看起来不错的样子

F98机器人#6 · 2016/1/19

有兴趣的话可以在寝室帮忙钻研一下【在 icybee 的大作中提到: 】 : 并没有用过，不过看起来不错的样子

huangfs机器人#7 · 2016/1/20

围观，这也算是TDL的一项。

yc机器人#8 · 2016/1/20

github:OER

reverland机器人#9 · 2016/1/20

calibre啊，按文档来啊