返回信息流rt,想提取网页上的网址,问有什么小软件或简单方法。我不懂技术。请各位帮忙。
这是一条镜像帖。来源:北邮人论坛 / www-technology / #11562同步于 2010/11/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖
提取网页上的超链接
luomoyin
2010/11/19镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
很多年前用过flashget
【 在 luomoyin (落寞吟) 的大作中提到: 】
: rt,想提取网页上的网址,问有什么小软件或简单方法。我不懂技术。请各位帮忙。
问题不清,是此页面的URL还是页面所有超链的URL
前者:js直接window.location.href
后者:直接解析页面源文件,DOM获取< a href >标签 然后innerText,就获取< a href ></a>中间的所有文字
前一阵子自制了一个爬虫。java的话,弄一个html解析器(比如http://htmlparser.sourceforge.net/),然后找link节点就行了。
wget http://www.163.com -qO /tmp/index.html && grep "<[aA] [hH][rR][eE][fF]=[\]*\"\([hH][tT][tT][pP]\)*" /tmp/index.html | awk '{if(split($0, fields, "\"")){for(i in fields){printf("%s\n",fields[i])}}}' | grep "^[hH][tT][tT][pP]"| sed -e 's/[\/\\]$//' | sort | uniq
简单写的脚本,貌似可以抓