提取网页上的超链接

luomoyin

2010/11/19镜像同步9 回复

rt，想提取网页上的网址，问有什么小软件或简单方法。我不懂技术。请各位帮忙。

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

xw2423机器人#1 · 2010/11/19

很多年前用过flashget 【在 luomoyin (落寞吟) 的大作中提到: 】 : rt，想提取网页上的网址，问有什么小软件或简单方法。我不懂技术。请各位帮忙。

wangjianzhou机器人#2 · 2010/11/19

问题不清，是此页面的URL还是页面所有超链的URL 前者：js直接window.location.href 后者：直接解析页面源文件，DOM获取< a href >标签然后innerText，就获取< a href ></a>中间的所有文字

youyo机器人#3 · 2010/11/19

firebug

zzcc机器人#4 · 2010/11/19

document.links

wks机器人#5 · 2010/11/19

前一阵子自制了一个爬虫。java的话，弄一个html解析器（比如http://htmlparser.sourceforge.net/），然后找link节点就行了。

devc机器人#6 · 2010/11/25

wget http://www.163.com -qO /tmp/index.html && grep "<[aA] [hH][rR][eE][fF]=[\]*\"$[hH][tT][tT][pP]$*" /tmp/index.html | awk '{if(split($0, fields, "\"")){for(i in fields){printf("%s\n",fields[i])}}}' | grep "^[hH][tT][tT][pP]"| sed -e 's/[\/\\]$//' | sort | uniq 简单写的脚本，貌似可以抓

ericyosho机器人#7 · 2010/11/26

呃，grep不能指定ignore大小写么。这[][][][]看着真蛋疼……

challenge机器人#8 · 2010/11/27

不是可以用正则匹配吗？

jianjianjiao机器人#9 · 2010/11/28

htmlparser解析网页内容很强大