返回信息流想从网页上抓取内容生成mobi(kindle上)格式的书,Python脚本的recipe有人写过吗?
我想从这个网站(http://www.forexfactory.com/forumdisplay.php?f=137)上抓取内容,用Calibre的ebook-convert命令,根据recipe生成mobi格式的电子书。
从网上找了些模板,但是一直没搞通,所以来请教版上的大神,看看有用过的吗?
模板如下:
from calibre.web.feeds.recipes import BasicNewsRecipe
class wooyun(BasicNewsRecipe):
title = u'forexfactory'
description = u'''gfhfhfghg'''
timefmt = '[%Y-%m-%d]'
no_stylesheets = True
INDEX = 'http://www.forexfactory.com/'
keep_only_tags = [{'class': 'tborder'}]
max_articles_per_feed = 10000
def parse_index(self):
# soup = self.index_to_soup(self.INDEX)
# pages_info = soup.findALL(**{'class': 'pages'}).text.split()
# print 'pages_info:', pages_info
start_page = 1 # int(pages_info[1])
end_page = 10 # int(pages_info[3])
articles = []
for p in range(start_page, end_page+1):
soup_page = self.index_to_soup('http://www.forexfactory.com/forumdisplay.php?f=137&order=desc&page=' + str(p))
soup_titles = soup_page.find('tbody', {'id': 'threadbits_forum_137'})
for soup_title in soup_titles:
href = soup_title.a
articles.append({'title': href['title'], 'url': href['href']})
print 'page %d done' % p
articles.reverse()
res = [(u'wuyun', articles)]
return res
这是一条镜像帖。来源:北邮人论坛 / python / #11723同步于 2016/1/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
想从网页上抓取内容生成mobi(kindle上)格式的书,Python脚本
F98
2016/1/19镜像同步15 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
[ema1]爪机无力,明天看看,帮你找人
@icybee
【 在 F98 (HGFH) 的大作中提到: 】
: 版主大人,看你这架势,把上衣都脱了,亮出了八块腹肌,是要大显身手了么
太感谢版主大人了!
看来还是版上靠谱得多,我在GitHub上问过几个写过这种脚本的人,都没人搭理我,不过也可能是别人太忙,没看到我的提问
【 在 jh1 的大作中提到: 】
: 爪机无力,明天看看,帮你找人
: @icybee