BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #13048同步于 2016/4/1
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

[问题]如何用正则表达式匹配这段话啊?

Myseven
2016/4/1镜像同步9 回复
见下图,要匹配的影响产品的条数不一定。以图2为例, 如果用:r'<td class="alignRight">影响产品</td>(\s)*<td>((\s)*(.*?)<br/>)*(\s)*</td>(\s)*</tr>' 则匹配结果是:[('\t', '\r\n\t\t\t\t\t\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t\t\t\t\t\t\tMIT Kerberos 5 1.14.x-1.14.1<br/>', '\t', 'MIT Kerberos 5 1.14.x-1.14.1', '\t', '\t')] 只能匹配到最后一条结果。 如果用:r'<td class="alignRight">影响产品</td>(\s)*<td>(\s)*(.*?)<br/>(\s)*</td>(\s)*</tr>' 则匹配结果是:[] 是空。 求大神帮下忙~实在是不会了
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
PiEgg机器人#1 · 2016/4/1
用beautifulsoup吧,不要用正则
Myseven机器人#2 · 2016/4/1
噢我查查beautifulsoup,小白一个,,正则也是第一次用 【 在 PiEgg 的大作中提到: 】 : 用beautifulsoup吧,不要用正则
nuanyangyang机器人#3 · 2016/4/1
beautifulsoup
Myseven机器人#4 · 2016/4/1
暖神,我要匹配的源码有很多字段都类似,只能根据“影响产品”来作区分,但是中文做关键字匹配怎么用呢?我试了 soup.findall(影响产品) 然后报错了 【 在 nuanyangyang 的大作中提到: 】 : beautifulsoup
nuanyangyang机器人#5 · 2016/4/1
【 在 Myseven 的大作中提到: 】 : 暖神,我要匹配的源码有很多字段都类似,只能根据“影响产品”来作区分,但是中文做关键字匹配怎么用呢?我试了 soup.findall(影响产品) 然后报错了 你他妈的倒是读读说明书啊,从来没见人写“soup.findall(影响产品)”这种代码的。你是不是觉得执行“open(二零一六年高考试卷).read()”你就能读到今年高考的试题啊?报个错,就来论坛丢一句“报错了”,谁他妈知道报了什么错。你不知道find_all里面应该传什么参数, https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all 官方文档写得清清楚楚。这要是让BeautifulSoup的作者知道辛辛苦苦写了那么好的文档没人读他非得哭死。现在大一的小朋友第一节编程实验课,还没学编程,就学怎么用搜索引擎。我让他找一个函数的定义,小朋友几分钟就找到。你要是不懂HTML的tag什么的,网上有教程, http://www.w3schools.com/ 这么通俗易懂的教程一读就会。现在怎么搞的,人人都做人工智能、数据挖掘、搜索引擎、垂直搜索、推荐系统,听着都高大上,一到实践别说爬虫写不出来,他妈的连个HTML都解析不出来。
stevesasuke机器人#6 · 2016/4/1
暖神息怒[ema3][ema3][ema3] 【 在 nuanyangyang 的大作中提到: 】 : : 你他妈的倒是读读说明书啊,从来没见人写“soup.findall(影响产品)”这种代码的。你是不是觉得执行“open(二零一六年高考试卷).read()”你就能读到今年高考的试题啊?报个错,就来论坛丢一句“报错了”,谁他妈知道报了什么错。你不知道find_all里面应该传什么参数, https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all 官方文档写得清清楚楚。这要是让BeautifulSoup的作者知道辛辛苦苦写了那么好的文档没人读他非得哭死。现在大一的小朋友第一节编程实验课,还没学编程,就学怎么用搜索引擎。我让他找一个函数的定义,小朋友几分钟就找到。你要是不懂HTML的tag什么的,网上有教程, http://www.w3schools.com/ 这么通俗易懂的教程一读就会。现在怎么搞的,人人都做人工智能、数据挖掘、搜索引擎、垂直搜索、推荐系统,听着都高大上,一到实践别说爬虫写不出来,他妈的连个HTML都解析不出来。
lairen机器人#7 · 2016/4/6
哈哈哈,好霸气 【 在 nuanyangyang 的大作中提到: 】 : : 你他妈的倒是读读说明书啊,从来没见人写“soup.findall(影响产品)”这种代码的。你是不是觉得执行“open(二零一六年高考试卷).read()”你就能读到今年高考的试题啊?报个错,就来论坛丢一句“报错了”,谁他妈知道报了什么错。你不知道find_all里面应该传什么参数, https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all 官方文档写得清清楚楚。这要是让BeautifulSoup的作者知道辛辛苦苦写了那么好的文档没人读他非得哭死。现在大一的小朋友第一节编程实验课,还没学编程,就学怎么用搜索引擎。我让他找一个函数的定义,小朋友几分钟就找到。你要是不懂HTML的tag什么的,网上有教程, http://www.w3schools.com/ 这么通俗易懂的教程一读就会。现在怎么搞的,人人都做人工智能、数据挖掘、搜索引擎、垂直搜索、推荐系统,听着都高大上,一到实践别说爬虫写不出来,他妈的连个HTML都解析不出来。
qisiwole机器人#8 · 2016/4/6
霸气 【 在 nuanyangyang 的大作中提到: 】 : : 你他妈的倒是读读说明书啊,从来没见人写“soup.findall(影响产品)”这种代码的。你是不是觉得执行“open(二零一六年高考试卷).read()”你就能读到今年高考的试题啊?报个错,就来论坛丢一句“报错了”,谁他妈知道报了什么错。你不知道find_all里面应该传什么参数, https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all 官方文档写得清清楚楚。这要是让BeautifulSoup的作者知道辛辛苦苦写了那么好的文档没人读他非得哭死。现在大一的小朋友第一节编程实验课,还没学编程,就学怎么用搜索引擎。我让他找一个函数的定义,小朋友几分钟就找到。你要是不懂HTML的tag什么的,网上有教程, http://www.w3schools.com/ 这么通俗易懂的教程一读就会。现在怎么搞的,人人都做人工智能、数据挖掘、搜索引擎、垂直搜索、推荐系统,听着都高大上,一到实践别说爬虫写不出来,他妈的连个HTML都解析不出来。
moonfighting机器人#9 · 2016/4/6
霸气测漏 【 在 nuanyangyang 的大作中提到: 】 : : 你他妈的倒是读读说明书啊,从来没见人写“soup.findall(影响产品)”这种代码的。你是不是觉得执行“open(二零一六年高考试卷).read()”你就能读到今年高考的试题啊?报个错,就来论坛丢一句“报错了”,谁他妈知道报了什么错。你不知道find_all里面应该传什么参数, https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all 官方文档写得清清楚楚。这要是让BeautifulSoup的作者知道辛辛苦苦写了那么好的文档没人读他非得哭死。现在大一的小朋友第一节编程实验课,还没学编程,就学怎么用搜索引擎。我让他找一个函数的定义,小朋友几分钟就找到。你要是不懂HTML的tag什么的,网上有教程, http://www.w3schools.com/ 这么通俗易懂的教程一读就会。现在怎么搞的,人人都做人工智能、数据挖掘、搜索引擎、垂直搜索、推荐系统,听着都高大上,一到实践别说爬虫写不出来,他妈的连个HTML都解析不出来。