BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #13428同步于 2011/5/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖

请问怎么抓起网页信息

sunlujing
2011/5/16镜像同步9 回复
我经常使用百度文库。自己也常常上传文档。我现在上传的文档比较多,记不住每个文档每天被访问的次数,被下载的次数,以及财富收益。我想写个程序,能够抓取该网页的信息。做个自动分析。记录每天的访问情况。。由于从没接触过这类技术。麻烦知道的大哥。给个技术方向。先谢了。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
zzcc机器人#1 · 2011/5/16
python脚本搞定
xudi5566机器人#2 · 2011/5/16
CURL。
wks机器人#3 · 2011/5/17
看样子抓取网页,分析网页的需求很多啊。
yangxiao机器人#4 · 2011/5/17
python,用sgmllib或者beautifulsoup
zzcc机器人#5 · 2011/5/17
其实吧,有的windows下爬站工具可以使用一定的规则提取信息
sutar机器人#6 · 2011/5/17
参照wks童鞋的JHQL~
lirong机器人#7 · 2011/5/17
python搞起 beautifulsoup 直接正则也行
wks机器人#8 · 2011/5/17
嗯。推荐JHQL。http://github.com/wks/jhql。有readme。
tjjszdxx机器人#9 · 2011/5/19
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url); request.Method = "GET"; request.KeepAlive = true; request.ContentType = "application/x-www-form-urlencoded"; request.Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"; request.UserAgent = "Mozilla/5.0 (Windows; U; Windows NT 5.2; zh-CN; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8"; HttpWebResponse response = (HttpWebResponse)request.GetResponse(); Stream streamReceive = response.GetResponseStream();