返回信息流最近想抓取一个HTTPS协议页面的网页信息,之前遇到过把HTTPS改为HTTP就可以抓取的,但是这次此方法失效...........
类似网站:https://www.travelfusion.com
???
这是一条镜像帖。来源:北邮人论坛 / python / #5017同步于 2015/1/26
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
https协议页面抓取问题.........
hduyu
2015/1/26镜像同步4 回复
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
from selenium import webdriver
from bs4 import BeautifulSoup
driver = webdriver.PhantomJS(executable_path='/opt/local/bin/phantomjs',service_args=['--ssl-protocol=any',])
driver.set_window_size(1120, 550)
driver.get('https://www.travelfusion.com')
soup=BeautifulSoup(driver.page_source)
print soup.encode('UTF-8', 'ignore')
【 在 hduyu 的大作中提到: 】
: 最近想抓取一个HTTPS协议页面的网页信息,之前遇到过把HTTPS改为HTTP就可以抓取的,但是这次此方法失效...........
: 类似网站:https://www.travelfusion.com
: ???