2014年03月21日 23:09:32

正则匹配html中的时间

作者: 
源码:
<div class="artInfo">
	<span id="pub_date">2014年03月12日 20:20</span>  
	<span id="media_name">
		<a href=http://stock.caijing.com.cn/2014-03-12/114002955.html?_fin 
			target="_blank">财经网</a> 	
	</span> 

	<div class="font_change"  id="J_Font_Zoomer" data-sudaclick="font_change">
		<span font-size="14">
			<a class="J_Font_Zoomer_Trigger icon font_down font_down_disable" 
				action-type="fontZoom" action-data="type=down" 
				href="javascript:void(0);" title="减小字号"></a>
		</span>
	</div>  
</div>

正则:
<span[^>]*?id="pub_date"[^>]*?>(.*?)</span>

解析:
锚点:就是使正则取值唯一的参照。(也许是我个人的说法)

需求:匹配时间

观察:<span 和 pub_date是锚点

因此,我们关心的是:
1、span标签
2、span标签里面有id="pub_date",这个锚点前后的数据不考虑
3、span的内容,需要提取,用括号(子模式)提取

得到:<span[^>]*?id="pub_date"[^>]*?>(.*?)</span>



未经同意禁止转载!
转载请附带本文原文地址:正则匹配html中的时间,首发自 Zjmainstay学习笔记
阅读( 2717 )
看完顺手点个赞呗:
(1 Vote)

1.PHP cURL群:PHP cURL高级技术
2.正则表达式群:专精正则表达式
3. QQ联系(加请说明):QQ联系博主(951086941)
4. 邮箱:zjmainstay@163.com
5. 打赏博主:

  1. 模拟登录后数据采集
  2. 网页内容数据采集
  3. 采集内容正则解析
  4. 数据采集难题咨询

阿里云幸运券分享
网站总访问量: