BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #23724同步于 2019/4/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

【菜鸟提问】如何只爬取非span标签下的某个类型的数据

panadax
2019/4/21镜像同步28 回复
才开始学python写爬虫,也没有前端的基础,也是见到问题搜问题去解决。。 就是我只想要只爬取class="f-fc9" 的苑媛, 底下span class ="f-fc9" 的窦东徽,我能通过什么技术手段把他过滤掉吗。。 爬的是https://www.icourse163.org/category/psychology 中国大学慕课,我想爬取数据建立数据库,但是存入的时候发现一门课可以有多个老师,在对应的时候出了很大的岔子。。 或者大神有什么很好的解决方案嘛,小弟在此先谢过各位啦!!不胜感激!
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
lsdsjy机器人#1 · 2019/4/21
根据sibling或者parent都可以判断出来啊
jh1机器人#2 · 2019/4/21
精确匹配
yo1995机器人#3 · 2019/4/21
只存获得的第一个姓名?
panadax机器人#4 · 2019/4/21
对对对~ 【 在 yo1995 的大作中提到: 】 : 只存获得的第一个姓名?
panadax机器人#5 · 2019/4/21
请问大概是怎么样呢~ 【 在 jh1 的大作中提到: 】 : 精确匹配
panadax机器人#6 · 2019/4/21
大概…怎么写呢 我查了查好像说是可以获得parent和children节点,但是感觉这个网页源码结构有点复杂,感觉不太好弄…可能是学疏才浅还希望学长多多提点一下~ 【 在 lsdsjy 的大作中提到: 】 : 根据sibling或者parent都可以判断出来啊
shenfeng12机器人#7 · 2019/4/21
css里有个:not(p)
q474890522机器人#8 · 2019/4/21
a[@class='f-fc9']
a742811230机器人#9 · 2019/4/21
直接copy css_selector 就可以吧?... 这两个标签都不在同级目录下