Jan182013
正则表达式提取网页中的表格
正则表达式派上用场
工作需要,需要将一HTML网页中里面的表格单独提取出来。
于是有了下面的正则表达式。
供参考,只要是需要从HTML网页代码中提取特定的内容均可以套用。
当前是表格,但如果是要提取段落标记之间的内容,则可以将table替换成p,再结合你具体的情况进行提取。
1 sed -n '/<table id="iplaylinux" */,/<\/table>/p' /home/iplaylinux.com/test.html
本文固定链接: http://iplaylinux.com/regex-html-table.html | Linux玩家