BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #7738同步于 2009/3/15
SearchEngine机器人发帖

[合集] [求助] 请教如何计算动态网页url中的无效参数

luntan
2009/3/15镜像同步0 回复
☆─────────────────────────────────────☆ sunmoonstar (摔锅啦) 于 (Thu Jan 8 21:14:21 2009) 提到: http://forum.byr.edu.cn/wForum/disparticle.php?boardName=SearchEngine&ID=11&pos=5 比如上面这个url有3个参数boadName,ID,pos 其中把pos这个参数去掉,对下载这个网页不会有影响 http://forum.byr.edu.cn/wForum/disparticle.php?boardName=SearchEngine&ID=11 而boardName和ID就是必要参数。 现在有大量的url,尽量减少与网站交互,算出url中的无效参数。 url属于很多站点,且每个站点有不少于1种参数模式。 谢谢 ☆─────────────────────────────────────☆ nonsense (Hello God) 于 (Fri Jan 9 13:33:07 2009) 提到: 【 在 sunmoonstar 的大作中提到: 】 : http://forum.byr.edu.cn/wForum/disparticle.php?boardName=SearchEngine&ID=11&pos=5 : 比如上面这个url有3个参数boadName,ID,pos : 其中把pos这个参数去掉,对下载这个网页不会有影响 : ................... 少数固定网站的抓取,可以定义抓取的规则 非固定网站的话,把url不同但内容相同的页面提出来比较一下url参数不就可以了 问题在于,如何判断两个页面相同... 感觉没什么必要 ☆─────────────────────────────────────☆ Keyman (KISS) 于 (Sat Jan 10 00:04:40 2009) 提到: 像google搜索url,有个参数表示每页显示多少条结果,如果搜索结果就那么1条,那么后面这个参数怎么设置返回的结果都是一样的,但事实上,这两个URL应该是对应着两个业务意义上不同的资源。这个是没办法区分的吧 ☆─────────────────────────────────────☆ yegle (一阁@SL小分队) 于 (Sat Jan 10 00:12:43 2009) 提到: http://www.google.cn/support/webmasters/bin/answer.py?answer=76401 【 在 Keyman (KISS) 的大作中提到: 】 : 像google搜索url,有个参数表示每页显示多少条结果,如果搜索结果就那么1条,那么后面这个参数怎么设置返回的结果都是一样的,但事实上,这两个URL应该是对应着两个业务意义上不同的资源。这个是没办法区分的吧 ☆─────────────────────────────────────☆ sunmoonstar (摔锅啦) 于 (Sat Jan 10 00:55:01 2009) 提到: 搜索引擎处理的数据集很大。 通过对已有url和网页学习确定有效的url参数模式,可以避免重复抓取、节省存储。 bbs,blog经常使用一些参数,去掉这些参数网页html几乎没有变化。 如果搜索引擎不做去重,就会浪费多一倍的流量、空间。 搜索引擎这边多用一点空间问题不大,多一倍流量那站长那边压力就大了些 结合数据挖掘的方法发现url模式,有没有前途。 应该从哪方面下手 ☆─────────────────────────────────────☆ namespace (dev c++) 于 (Sat Jan 10 13:12:20 2009) 提到: 能不能从网页的内容去判断呢?如果这个参数没有什么用的话,那么指向网页的内容应该是完全一样的...那么可以用一些数字签名的方法去判重,如果计算量或者是空间要求高的法话可以每隔十个字节取一个做为签名,我觉得这样的话应该也能满足要求...如果单从URL上来做是很难做的.. ☆─────────────────────────────────────☆ namespace (dev c++) 于 (Sat Jan 10 13:14:37 2009) 提到: 当你抓取了一些页面后,就可以用一些规则的方法,如公共串,去识别这么无用的参数.. ☆─────────────────────────────────────☆ nonsense (Hello God) 于 (Sat Jan 10 14:41:36 2009) 提到: 【 在 namespace 的大作中提到: 】 : 能不能从网页的内容去判断呢?如果这个参数没有什么用的话,那么指向网页的内容应该是完全一样的...那么可以用一些数字签名的方法去判重,如果计算量或者是空间要求高的法话可以每隔十个字节取一个做为签名,我觉得这样的话应该也能满足要求...如果单从URL上来做是很难做的.. 数字签名?网页判重跟数字签名有啥关系? ☆─────────────────────────────────────☆ namespace (dev c++) 于 (Sat Jan 10 15:40:20 2009) 提到: 我错了...,好吧,用HASH总可以吧.. 【 在 nonsense 的大作中提到: 】 : 数字签名?网页判重跟数字签名有啥关系? ☆─────────────────────────────────────☆ nonsense (Hello God) 于 (Sat Jan 10 16:04:49 2009) 提到: 【 在 namespace 的大作中提到: 】 : 我错了...,好吧,用HASH总可以吧.. hash是个办法,感觉不是太合适 比如一个帖子,可以显示被浏览次数或者当前时间什么的(服务器端输出的html) 爬虫抓取一次页面就变化一次 对页面hash的话,没办法判断出其实是 "同"一个网页 我觉得还是得基于内容相似度来判重...但显然做起来很有难度...
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。