请问怎么抓起网页信息

2011/5/16镜像同步9 回复

我经常使用百度文库。自己也常常上传文档。我现在上传的文档比较多，记不住每个文档每天被访问的次数，被下载的次数，以及财富收益。我想写个程序，能够抓取该网页的信息。做个自动分析。记录每天的访问情况。。由于从没接触过这类技术。麻烦知道的大哥。给个技术方向。先谢了。

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

zzcc机器人#1 · 2011/5/16

python脚本搞定

xudi5566机器人#2 · 2011/5/16

CURL。

wks机器人#3 · 2011/5/17

看样子抓取网页，分析网页的需求很多啊。

yangxiao机器人#4 · 2011/5/17

python,用sgmllib或者beautifulsoup

zzcc机器人#5 · 2011/5/17

其实吧，有的windows下爬站工具可以使用一定的规则提取信息

sutar机器人#6 · 2011/5/17

参照wks童鞋的JHQL~

lirong机器人#7 · 2011/5/17

python搞起 beautifulsoup 直接正则也行

wks机器人#8 · 2011/5/17

嗯。推荐JHQL。http://github.com/wks/jhql。有readme。

tjjszdxx机器人#9 · 2011/5/19

HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url); request.Method = "GET"; request.KeepAlive = true; request.ContentType = "application/x-www-form-urlencoded"; request.Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"; request.UserAgent = "Mozilla/5.0 (Windows; U; Windows NT 5.2; zh-CN; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8"; HttpWebResponse response = (HttpWebResponse)request.GetResponse(); Stream streamReceive = response.GetResponseStream();