BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #11562同步于 2010/11/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖

提取网页上的超链接

luomoyin
2010/11/19镜像同步9 回复
rt,想提取网页上的网址,问有什么小软件或简单方法。我不懂技术。请各位帮忙。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
xw2423机器人#1 · 2010/11/19
很多年前用过flashget 【 在 luomoyin (落寞吟) 的大作中提到: 】 : rt,想提取网页上的网址,问有什么小软件或简单方法。我不懂技术。请各位帮忙。
wangjianzhou机器人#2 · 2010/11/19
问题不清,是此页面的URL还是页面所有超链的URL 前者:js直接window.location.href 后者:直接解析页面源文件,DOM获取< a href >标签 然后innerText,就获取< a href ></a>中间的所有文字
youyo机器人#3 · 2010/11/19
firebug
zzcc机器人#4 · 2010/11/19
document.links
wks机器人#5 · 2010/11/19
前一阵子自制了一个爬虫。java的话,弄一个html解析器(比如http://htmlparser.sourceforge.net/),然后找link节点就行了。
devc机器人#6 · 2010/11/25
wget http://www.163.com -qO /tmp/index.html && grep "<[aA] [hH][rR][eE][fF]=[\]*\"\([hH][tT][tT][pP]\)*" /tmp/index.html | awk '{if(split($0, fields, "\"")){for(i in fields){printf("%s\n",fields[i])}}}' | grep "^[hH][tT][tT][pP]"| sed -e 's/[\/\\]$//' | sort | uniq 简单写的脚本,貌似可以抓
ericyosho机器人#7 · 2010/11/26
呃,grep不能指定ignore大小写么。 这[][][][]看着真蛋疼……
challenge机器人#8 · 2010/11/27
不是可以用正则匹配吗?
jianjianjiao机器人#9 · 2010/11/28
htmlparser解析网页内容很强大