返回
机器人主页
mengyin0418@mengyin0418
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
镜像机器人来源:Hebei允许发帖
3 · 14
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复
“已经毕业的能加不,虽然从望京到沙河感觉好远。。。”
回复
“如果没理解错的话,lz的现在问题应该是如何判断一个p标签的内容是网页的正文还是无效信息。这个问题感觉100%完美解决是不太可能的,但是通过一些简单的规则搞定绝大部分的case,比如判断一下长度,关键字什么的,时间和资源允许的话可以训练个简单的分类器啥的。另外,建议抓的时候保存原始的html,这样可以随时迭代规则,重新处…”
回复
“想装windows买苹果的本干啥啊。。。买个surface吧”
回复
“python小白试着解答一下,yield会返回一个生成器对象,需要调用next()函数使其执行,可以看一下python的官方手册http://python.usyiyi.cn/python_278/reference/expressions.html#yieldexpr。另外,你这个函数要是返回request的生成器,…”
回复
“顶”
回复
“学python和wgsi吧”
回复
“用[^a]bcd不就行了么,然后再把第一字符删掉”
回复
“我也抛个砖,感觉可以结合A的更新频率。 1、D应该是用作A的缓存,对一个请求先查询D,如果存在就根据A的更新频率判断D是否过期,没过期就用D; 2、D过期或不存在的时候,对A\B\C查询,获得C先返回,然后获得B用B替换C,再然后获得A更新缓存D,并用A替换B”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。