BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #24282同步于 2019/8/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

爬虫小白求助一段代码

yjbuptphy
2019/8/29镜像同步7 回复
请教,每部影片的信息都保存在“<dd>”和“</dd>”中,如下所示是获取页面的一段字符。 要获取每部影片的: 1 排名(在“class="board-index ...”中) 2 图片的src 3 影片名 4 主演名 5 上映时间 6 上映地点(在上映时间后面的括号里,有的有地点,有的没有地点) 7 评分,(在score中,整数位和小数位分开写了) 用BeautifulSoup,这段代码该怎么写?谢谢啦! ... <dd> <i class="board-index board-index-1">1</i> <a href="/films/1203" title="霸王别姬" class="image-link" data-act="boarditem-click" data-val="{movieId:1203}"> <img src="//s3plus.meituan.net/v1/mss_e2821d7f0cfe4ac1bf9202ecf9590e67/cdn-prod/file:5788b470/image/loading_2.e3d934bf.png" alt="" class="poster- default" /> <img data-src="https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c" alt="霸王别姬" class="board-img" /> </a> <div class="board-item-main"> <div class="board-item-content"> <div class="movie-item-info"> <p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王别姬</a></p> <p class="star"> 主演:张国荣,张丰毅,巩俐 </p> <p class="releasetime">上映时间:1993-01-01</p> </div> <div class="movie-item-number score-num"> <p class="score"><i class="integer">9.</i><i class="fraction">5</i></p> </div> </div> </div> </dd> <dd> <i class="board-index board-index-2">2</i> <a href="/films/1297" title="肖申克的救赎" class="image-link" data-act="boarditem-click" data-val="{movieId:1297}"> <img src="//s3plus.meituan.net/v1/mss_e2821d7f0cfe4ac1bf9202ecf9590e67/cdn-prod/file:5788b470/image/loading_2.e3d934bf.png" alt="" class="poster- default" /> <img data-src="https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c" alt="肖申克的救赎" class="board-img" /> </a> <div class="board-item-main"> <div class="board-item-content"> <div class="movie-item-info"> <p class="name"><a href="/films/1297" title="肖申克的救赎" data-act="boarditem-click" data-val="{movieId:1297}">肖申克的救赎</a></p> <p class="star"> 主演:蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿 </p> <p class="releasetime">上映时间:1994-09-10(加拿大)</p> </div> <div class="movie-item-number score-num"> <p class="score"><i class="integer">9.</i><i class="fraction">5</i></p> </div> </div> </div> </dd> <dd> <i class="board-index board-index-3">3</i> <a href="/films/2641" title="罗马假日" class="image-link" data-act="boarditem-click" data-val="{movieId:2641}"> <img src="//s3plus.meituan.net/v1/mss_e2821d7f0cfe4ac1bf9202ecf9590e67/cdn-prod/file:5788b470/image/loading_2.e3d934bf.png" alt="" class="poster- default" /> <img data-src="https://p0.meituan.net/movie/289f98ceaa8a0ae737d3dc01cd05ab052213631.jpg@160w_220h_1e_1c" alt="罗马假日" class="board-img" /> </a> <div class="board-item-main"> <div class="board-item-content"> <div class="movie-item-info"> <p class="name"><a href="/films/2641" title="罗马假日" data-act="boarditem-click" data-val="{movieId:2641}">罗马假日</a></p> <p class="star"> 主演:格利高里·派克,奥黛丽·赫本,埃迪·艾伯特 </p> <p class="releasetime">上映时间:1953-09-02(美国)</p> </div> <div class="movie-item-number score-num"> <p class="score"><i class="integer">9.</i><i class="fraction">1</i></p> </div> </div> </div> </dd> ...
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
suping机器人#1 · 2019/8/29
网上肯定有教程,你这直接让别人白给啊。。。
WHSASF机器人#2 · 2019/8/30
这个不难,自己搞,话说 直接xpath 多好,
qq458138584机器人#3 · 2019/8/30
耐心看看教程就好了,,你这是作业吧。。
GOON机器人#4 · 2019/8/30
看了下是男的,自强plz,蛮简单的
soundlife机器人#5 · 2019/8/30
《Python3网络爬虫开发实战》里写过一次猫眼电影的爬虫,但直接用的正则表达式解析,没用beautiful soup。 https://github.com/Python3WebSpider/MaoYan
boke1208机器人#6 · 2019/8/30
百度一下,你就知道
xiaoXIONG3机器人#7 · 2019/9/7
xpath和re都挺好