返回信息流比如
response.xpath('//title/text()').extract()[0][:-7]
还有
response.xpath('//title/text()').extract()[0][1:]
extract提取出来的是列表还是字符串?后面两个方括号代表什么操作呢,应该看什么知识点?
冒号的位置还不一样
这是一条镜像帖。来源:北邮人论坛 / python / #5046同步于 2015/1/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
求助,[0][:-7]这样的操作形式叫什么?
henceman
2015/1/27镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
x[0]和x[:-7]可以理解吧。其实那就是
x = response.xpath('//title/text()').extract()
y = x[0]
z = y[:-7]
【 在 nuanyangyang 的大作中提到: 】
: x[0]和x[:-7]可以理解吧。其实那就是
: [code=python]
: x = response.xpath('//title/text()').extract()
: ...................
暖神,可是extract抽取出来的是什么呀,如果是序列(列表)的话,那么把text划分成序列的操作没有看见呀~!~
【 在 henceman 的大作中提到: 】
: 暖神,可是extract抽取出来的是什么呀,如果是序列(列表)的话,那么把text划分成序列的操作没有看见呀~!~
你自己看看不就知道了吗
暖神,我的意思是title就是一句话,为什么还用二维表示呢?如果第二个方框是列表按字符切片的话,第一个方框表示的列表是什么呀?
【 在 nuanyangyang 的大作中提到: 】
【 在 henceman 的大作中提到: 】
: 暖...
暖神,我好像明白了,//title是所有的title,第一维列表,extract()按照空白符切片,第二维,暖神,这样对么?
【 在 nuanyangyang 的大作中提到: 】
【 在 henceman 的大作中提到: 】
: 暖...
看文档
http://doc.scrapy.org/en/latest/topics/selectors.html#scrapy.selector.Selector.extract
Serialize and return the matched nodes as a list of unicode strings.
【 在 henceman 的大作中提到: 】
: 暖神,我好像明白了,//title是所有的title,第一维列表,extract()按照空白符切片,第二维,暖神,这样对么?
【 在 Chon 的大作中提到: 】
: 看文档
: http://doc.scrapy.org/en/latest/topics/selectors.html#scrapy.selector.Selector.extract
: Serialize and return the matched nodes as a list of unicode strings.
: ...................
thanks a lot。看了下,不是很懂,这里的matched nodes是如何match的?extract方法可以有参数么,默认的参数是空白符么?另外 Percent encoded content is unquoted.这句话啥意思?
麻烦给讲解下,代码水平很低,scrapy 也刚学,debug什么的还不会?
再次感谢~!~
我没用过scrapy,所有的认识基于上述官方文档。
你这几个问题上面的文档里都有。
【 在 henceman 的大作中提到: 】
: thanks a lot。看了下,不是很懂,这里的matched nodes是如何match的?extract方法可以有参数么,默认的参数是空白符么?另外 Percent encoded content is unquoted.这句话啥意思?
: 麻烦给讲解下,代码水平很低,scrapy 也刚学,debug什么的还不会?
: 再次感谢~!~
【 在 Chon 的大作中提到: 】
: 我没用过scrapy,所有的认识基于上述官方文档。
: 你这几个问题上面的文档里都有。
多谢,对于爬虫,你都是用什么库or框架?
千万级别的网页抓取用什么好~!~