solosseason@solosseason
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“楼主的ip([美国 加利福尼亚州圣克拉拉县山景市谷歌公司] )!!!dream company !!!然而自己只是渣渣一枚,帮顶”
“【 在 Vampire 的大作中提到: 】 : 不懂 scrapy。大概看了下,楼主给的那个链接里面,貌似 <img> 都是包含在一个 <p> 里面的,都是外面一个大 <p> 包含图片 <img> 和标题 <p>。所以,即使没有图片标题,也可以通过删掉所有“包含了 <img> 的 <p>”来去除图片吧? : 恩,这个思…”
“【 在 Vampire 的大作中提到: 】 : beautifulsoup 之类处理 html 的模块应该支持修改页面的树结构吧?页面抓下来先改再存可以吗? 我是用scrapy处理的,这种思路还没试过,但是我觉得还是会遇到和我先前一样的难题吧,先改后存的话,如何改呢?我需要把content里的图片标题提取出来,然后连同…”
“【 在 pzhfreeze 的大作中提到: 】 : repr打印出原始字符看下 感谢指点,可以了。 print eval('"'+repr(string1)+'"')就行了”
“【 在 aqwertaqwert 的大作中提到: 】 : encode encode啥?utf-8,gb2312,ascii,unicode-escape,decode也试了”
“【 在 nuanyangyang 的大作中提到: 】 : 没代码没真相 我已经放弃了”
“支持楼上,python3解忧”
“【 在 fp544037857 的大作中提到: 】 : : 我的意思是加个/呢。。 : 我的习惯写法。。单看这几句感觉看不出什么来。。 : ................... 刚刚试了一下,还是不可以的,我现在很怀疑是不是我搭建的环境出现了问题,无法理解”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。