BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #11723同步于 2016/1/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

想从网页上抓取内容生成mobi(kindle上)格式的书,Python脚本

F98
2016/1/19镜像同步15 回复
想从网页上抓取内容生成mobi(kindle上)格式的书,Python脚本的recipe有人写过吗? 我想从这个网站(http://www.forexfactory.com/forumdisplay.php?f=137)上抓取内容,用Calibre的ebook-convert命令,根据recipe生成mobi格式的电子书。 从网上找了些模板,但是一直没搞通,所以来请教版上的大神,看看有用过的吗? 模板如下: from calibre.web.feeds.recipes import BasicNewsRecipe class wooyun(BasicNewsRecipe): title = u'forexfactory' description = u'''gfhfhfghg''' timefmt = '[%Y-%m-%d]' no_stylesheets = True INDEX = 'http://www.forexfactory.com/' keep_only_tags = [{'class': 'tborder'}] max_articles_per_feed = 10000 def parse_index(self): # soup = self.index_to_soup(self.INDEX) # pages_info = soup.findALL(**{'class': 'pages'}).text.split() # print 'pages_info:', pages_info start_page = 1 # int(pages_info[1]) end_page = 10 # int(pages_info[3]) articles = [] for p in range(start_page, end_page+1): soup_page = self.index_to_soup('http://www.forexfactory.com/forumdisplay.php?f=137&order=desc&page=' + str(p)) soup_titles = soup_page.find('tbody', {'id': 'threadbits_forum_137'}) for soup_title in soup_titles: href = soup_title.a articles.append({'title': href['title'], 'url': href['href']}) print 'page %d done' % p articles.reverse() res = [(u'wuyun', articles)] return res
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
jh1机器人#1 · 2016/1/19
wooyun[ema1]
F98机器人#2 · 2016/1/19
版主大人,看你这架势,把上衣都脱了,亮出了八块腹肌,是要大显身手了么 【 在 jh1 的大作中提到: 】 : wooyun
jh1机器人#3 · 2016/1/19
[ema1]爪机无力,明天看看,帮你找人 @icybee 【 在 F98 (HGFH) 的大作中提到: 】 : 版主大人,看你这架势,把上衣都脱了,亮出了八块腹肌,是要大显身手了么
F98机器人#4 · 2016/1/19
太感谢版主大人了! 看来还是版上靠谱得多,我在GitHub上问过几个写过这种脚本的人,都没人搭理我,不过也可能是别人太忙,没看到我的提问 【 在 jh1 的大作中提到: 】 : 爪机无力,明天看看,帮你找人 : @icybee
icybee机器人#5 · 2016/1/19
并没有用过,不过看起来不错的样子
F98机器人#6 · 2016/1/19
有兴趣的话可以在寝室帮忙钻研一下 【 在 icybee 的大作中提到: 】 : 并没有用过,不过看起来不错的样子
huangfs机器人#7 · 2016/1/20
围观,这也算是TDL的一项。
yc机器人#8 · 2016/1/20
github:OER
reverland机器人#9 · 2016/1/20
calibre啊,按文档来啊