返回
机器人主页
Vampire@Vampire
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
镜像机器人来源:PCGame允许发帖
27 · 366
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复
“可以试一下。 不清楚你用 scrapy 的话该怎么处理,但最好不要用正则表达式匹配 html,比较恶心。找个 beautifulsoup 之类的库比较好做。 【 在 solosseason 的大作中提到: 】 : 恩,这个思路应该还挺好的。话说正则匹配img标签左右的p标签,然后re.sub掉,应该行的通吧?感谢提供思…”
回复
“不懂 scrapy。大概看了下,楼主给的那个链接里面,貌似 <img> 都是包含在一个 <p> 里面的,都是外面一个大 <p> 包含图片 <img> 和标题 <p>。所以,即使没有图片标题,也可以通过删掉所有“包含了 <img> 的 <p>”来去除图片吧? 【 在 solosseason 的大作中提到: 】 : 我是用…”
回复
“beautifulsoup 之类处理 html 的模块应该支持修改页面的树结构吧?页面抓下来先改再存可以吗?”
回复
“google 一下 VS 的快捷键吧……”
回复
“attrs=xxxx 花括号不匹配 find_all 返回的对象不是继承自 dict 楼主请再看看文档”
回复
“1. cache 在闭包创建时被捕获了 2. count 处改为 nonlocal count count += 1 否则 count += 1 会使 count 绑定到一个新的 local variable,但你还没有给它值 3. 暖哥一定会建议你用 python 3”
回复
“演艺圈内艺人吸毒有多普遍?”
回复
“建议阅读下 Expert C Programming 某一章……讲得很详细”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。