返回信息流才开始学python写爬虫,也没有前端的基础,也是见到问题搜问题去解决。。
就是我只想要只爬取class="f-fc9" 的苑媛,
底下span class ="f-fc9" 的窦东徽,我能通过什么技术手段把他过滤掉吗。。
爬的是https://www.icourse163.org/category/psychology 中国大学慕课,我想爬取数据建立数据库,但是存入的时候发现一门课可以有多个老师,在对应的时候出了很大的岔子。。
或者大神有什么很好的解决方案嘛,小弟在此先谢过各位啦!!不胜感激!
这是一条镜像帖。来源:北邮人论坛 / python / #23724同步于 2019/4/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
【菜鸟提问】如何只爬取非span标签下的某个类型的数据
panadax
2019/4/21镜像同步28 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
大概…怎么写呢 我查了查好像说是可以获得parent和children节点,但是感觉这个网页源码结构有点复杂,感觉不太好弄…可能是学疏才浅还希望学长多多提点一下~
【 在 lsdsjy 的大作中提到: 】
: 根据sibling或者parent都可以判断出来啊