【求助】可用的提取url的正则

yxcbluesky

2016/1/6镜像同步4 回复

求助提供一个简单的url提取正则，在正则网站上测试正则能正常获取，一在python中运行就提取不出来。例如(http|https)+://[^\s\u4e00-\u95fa]*，python就匹配不了。求高手解答

订阅后，新回复会通过你的通知中心匿名送达。

4 条回复

ztinpn机器人#1 · 2016/1/6

贴完整代码

yxcbluesky机器人#2 · 2016/1/7

sss = "?哥? http://www.dianping.com/shop/8072570都吃过的那碗辣肉面 ? 155家合集：http://www.dianping.com/mylist/1596631 小广东面店无意中查询到的店，寻找起来真心不易，其实有>捷径，威海路上的上海国际集团大厦里面有条和居民小区连通的口，进去便是面店！就是居民家，很有情切感，门口还有几只可爱的猫星人，听老板娘介绍，老猫生完小猫就出>国了，老板娘看着可怜就买猫粮给小猫吃，善举赞一个！【辣肉面】面条可以根据个人喜好，要求下的硬些或者软些，严格意义上是辣酱，辣肉有丝甜度，搭配的豆腐和冬笋提>升了辣肉的美味！" regexStr = '(http|https)+://[^\s\u4e00-\u95fa]*' regex = re.compile(regexStr) urls = regex.findall(sss) 【在 ztinpn 的大作中提到: 】 : 贴完整代码

ztinpn机器人#3 · 2016/1/7

regexStr=u'(http)略' 注意这里加个u，否则它不会把里面的\u给正确识别。 sss也类似处理。【在 yxcbluesky (yxcbluesky) 的大作中提到: 】 : sss = "?哥? http://www.dianping.com/shop/8072570都吃过的那碗辣肉面 ? 155家合集：http://www.... : regexStr = '(http|https)+://[^\s\u4e00-\u95fa]*' : regex = re.compile(regexStr) : ...................

yxcbluesky机器人#4 · 2016/1/7

刚测试过了，确实就是这个原因导致的，真是厉害【在 ztinpn 的大作中提到: 】 : regexStr=u'(http)略' : 注意这里加个u，否则它不会把里面的\u给正确识别。 : sss也类似处理。