壹分钟快速生成用于网页内容提取的xslt

#*_*coding:utf-8*_*

import xml.dom.minidom as xmlDoc
import os
import gl
import sys



class cREPORTXML(object):
    def __init__(self):
        self.__struct = self.createReportNode()

    #创建report节点
    def createReportNode(self):
        try:
            xmlD = xmlDoc.Document()

            #xml样式
            xlstNode = xmlD.createProcessingInstruction("xml-stylesheet","href=\"LOG.XSLT\" type=\"text/xsl\"")
            xmlD.appendChild(xlstNode)

            report = xmlD.createElement('REPORT')
            xmlD.appendChild(report)

            overStatus = xmlD.createElement('OVER_STATUS')
            overStatus.appendChild(xmlD.createTextNode('PASSED'))
            report.appendChild(overStatus)

            returnResult = []
            returnResult.append(xmlD)
            returnResult.append(report)
        except Exception,ex:
            return ex.message
        return returnResult


    def writeReport(self,execTime,stepResult,comName,stepDisc):
        #reportNodeList = self.createReportNode()

        entry = self.createLogEntry(self.__struct[0],execTime,stepResult,comName,stepDisc)
        self.__struct[1].appendChild(entry)
        self.writeXml(self.__struct[0],gl.reporterPath+'reportxml.xml')
        #self.writeXml(self.__struct[0],gl.reporterPath+'reportxml_%s.xml'%(gl.curTimeStr))
 #-------------创建xml格式-有多个相同的节点,并且该节点下有4个名称相同的子节点----------------
    def createLogEntry(self,docObj,executeTime,stepResult,componentName,stepDiscription):
        entry = docObj.createElement("LOG_ENTRY")

        status = docObj.createElement("STATUS")
        nodeExecuteTime = docObj.createElement("EXECUTION_TIME")
        nodeStepResult = docObj.createElement("STEP_RESULT")
        nodeComponentName = docObj.createElement("COMPONENT_NAME")
        nodeStepDiscription = docObj.createElement("STEP_DESCRIPTION")

        status.appendChild(docObj.createTextNode(stepResult))
        nodeExecuteTime.appendChild(docObj.createTextNode(executeTime))
        nodeStepResult.appendChild(docObj.createTextNode(stepResult))
        nodeComponentName.appendChild(docObj.createTextNode(componentName))
        nodeStepDiscription.appendChild(docObj.createTextNode(stepDiscription))

        entry.appendChild(status)
        entry.appendChild(nodeExecuteTime)
        entry.appendChild(nodeStepResult)
        entry.appendChild(nodeComponentName)
        entry.appendChild(nodeStepDiscription)
        return entry


    #参数,xml对象,准备存储xml文件路径,文件模式:读 and 写 (r and w)
    def writeXml(self,xmlDoc,xmlPath):
        f = open(xmlPath,"w")
        xmlDoc.writexml(f,indent='\t', addindent='\t', newl='\n', encoding="utf-8") #中间的加了一些格式符,这样生成的xml自动对齐格式
        f.close()




if __name__=='__main__':
    reportx =cREPORTXML()
    print  reportx.writeReport('20170602','PASSED','1-SETTEXT','AUTOMATION TEST')
    print  reportx.writeReport('20170606','FIELD','2-SETTEXT','AUTOMATION TEST')

在《Python即时互联网爬虫项目表达》一文大家说过要做一个通用的互连网爬虫,而且能省去程序员大半的时间,而关键难题正是提取器使用的抓取规则需求赶快变动。在python使用xslt提取网页数据一文,大家早就见到那一个提取规则是xslt程序,在示范程序中,直接把一长段xslt赋值给变量,不过从未讲这一段xslt是怎么来的。

            #xml样式
            xlstNode = xmlD.createProcessingInstruction("xml-stylesheet","href=\"LOG.XSLT\" type=\"text/xsl\"")
            xmlD.appendChild(xlstNode)

贰、MS谋数台能做怎么样

STATUS单行数据实市价况

1、项目背景

 用ie打开xml报告,当然能够观察总括果显示有点难题,那几个不影响报告展现,代码中处理一下就好.

您恐怕感兴趣的小说:

  • python使用xslt提取网页数据的诀窍
  • 运用Python下的XSLT
    API举办web开发的简短教程
  • 一个用xslt样式将xml解析为xhtml的类TransformBinder(兼容FF和IE7.0)
  • 用xslt将xml解析成xhtml的代码
  • XSLT轻松入门第三章:XSLT的实例
  • python提取字典key列表的法子
  • Python完毕从url中领取域名的二种方法
  • python利用正则表达式提取字符串
  • python使用正则表明式提取网页U宝马7系L的艺术
  • Python实行数量提取的方式总计

STEP_RESULT单步执行结果

  • 基于直观标注自动生成XSLT
  • 当下测试XSLT的不错
  • 树状的DOM结构呈现
  • 解析有个别DOM节点的习性
  • 为DOM节点生成XPath,可挑选稳定到class、也许id、或然相对定位
  • 根据xpath搜索DOM节点

2.生成xml结构

若是大家要抓取论坛帖子列表,上面一步步执教操作方法:
首先步,打开GooSeeker的MS谋数台,输入要抓取的网站
其次步,在MS谋数台的浏览器展现窗口里,直接采用要提取的始末,并且起个名字,点击确认

四.后头创建其余节点,一样用createElement,不过壹旦节点下要追加内容要用xmlDoc.createTextNode(‘passed’)

如上正是本文的全体内容,希望对我们的就学抱有帮忙,也希望大家多多扶助脚本之家。

创制的xml第二行是xml头    <?xml version=”1.0″ encoding=”utf-八”?>
那样python暗中同意已经有了,就不用大家创立了,那么

图片 1

以下代码创制根节点做为了二个独自的函数,之所以如此做因为要转变的告诉,只成立多个根节点,和over_status
结果景况

一分钟快速生成用于网页内容提取的xslt,具体内容如下

3.成立一个REPOPAJEROT根节点,你也足以起名ROOT,叫什么名字看你协调了

实际景况是,那些xslt是通过GooSeeker的MS谋数台的直观标注功效自动生成的,纯熟的话一分钟就消除了。

 

网上朋友自然会疑忌:那些xslt这么长,编写不是要花不短日子?

<?xml version="1.0" encoding="utf-8"?>
    <?xml-stylesheet href="LOG.XSLT" type="text/xsl"?>
    <REPORT>
        <OVER_STATUS>PASSED</OVER_STATUS>
        <LOG_ENTRY>
            <STATUS>FAILED</STATUS>
            <EXECUTION_TIME>2017.06.15 15:57:16</EXECUTION_TIME>
            <STEP_RESULT>FAILED</STEP_RESULT>
            <COMPONENT_NAME>704</COMPONENT_NAME>
            <STEP_DESCRIPTION>{u'nextUrl': u'http://www.elong.com', u'message': u'\u9a8c\u8bc1\u7801\u9519\u8bef', u'code': u'704', u'success': False, u'isShowVerifyCode': True}</STEP_DESCRIPTION>
        </LOG_ENTRY>
        <LOG_ENTRY>
            <STATUS>FAILED</STATUS>
            <EXECUTION_TIME>2017.06.15 15:57:16</EXECUTION_TIME>
            <STEP_RESULT>FAILED</STEP_RESULT>
            <COMPONENT_NAME>704</COMPONENT_NAME>
            <STEP_DESCRIPTION>{u'nextUrl': u'http://www.elong.com', u'message': u'\u9a8c\u8bc1\u7801\u9519\u8bef', u'code': u'704', u'success': False, u'isShowVerifyCode': True}</STEP_DESCRIPTION>
        </LOG_ENTRY>
    </REPORT>

201陆-0五-2八:V3.0,扩展第三章
201陆-0伍-二六:V二.0,增加补充文字表达

<?xml version="1.0" encoding="utf-8"?>

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">

<xsl:template match="/">
 <html>
 <Head>
        <style type="text/css">

          body {
          background:#fff;
          margin:0;
          padding:40px 20px;
          font-family: "Arial", Arial, Sans-serif;
          font-size: 16px;
          color:#000;
          }

          table {
          margin:5px 5px 0;
          border:0px solid #222;
          font-size: 0.8em;
          }

          td {
          margin:5px 5px 0;
          padding:10px 10px 10px 10px;
          vertical-align:text-top;
          border:1px solid #222;
          border-width:1px 1px 1px 1px;
          }

          td.light {
          border:0px solid #222;
          }

          td.number {
          text-align:right;
          }

          td.status {
          text-align:right;
          vertical-align:text-bottom;
          }

        </style>


 </Head>
 <body>
   <!--OVER RESULT -->
   <xsl:variable name="OVER_STATUS" select="REPORT/OVER_STATUS"/>
   <xsl:variable name="STATUS" select="REPORT/LOG_ENTRY/STATUS"/>



   <h2>自动化测试执行报告</h2>
   <!--table -->
   <table border="1">
     <!--all result value-->
     <tr bgcolor="white" height = "35">
        <td>Overall Test Result</td>
        <td><xsl:value-of select="$OVER_STATUS"/></td>
        <td colspan="2"> </td>
     </tr>

     <tr bgcolor="#D8BFD8" height = "35">
       <th>执行时间</th>
       <th>单步结果</th>
       <th>响应CODE</th>
       <th>Response信息</th>
     </tr>



       <!--select font color -->
       <xsl:variable name="fontColor">
           <xsl:choose>
               <xsl:when test="$STATUS = FAILED or $STATUS = PASSED">
                   <xsl:text>white</xsl:text>
               </xsl:when>
               <xsl:otherwise>black</xsl:otherwise>
           </xsl:choose>
       </xsl:variable>

       <!--background color-->
       <xsl:variable name="backgroundColor">
           <xsl:choose>
               <xsl:when test="$STATUS = 'FAILED'">
                   <xsl:text>rgb(255,0,0)</xsl:text>
               </xsl:when>
               <xsl:when test="$STATUS = 'PASSED'">
                   <xsl:text>rgb(60,179,113)</xsl:text>
               </xsl:when>
               <xsl:otherwise>
                   <xsl:text>white</xsl:text>
               </xsl:otherwise>
           </xsl:choose>
       </xsl:variable>

       <!--log entry-->
       <xsl:for-each select = "REPORT/LOG_ENTRY">


           <tr>
               <td><xsl:value-of select="EXECUTION_TIME"/></td>
               <td bgcolor="{$backgroundColor}"><xsl:value-of select="STEP_RESULT"/></td>
               <td><xsl:value-of select="COMPONENT_NAME"/></td>
               <td><xsl:value-of select="STEP_DESCRIPTION"/></td>
           </tr>
       </xsl:for-each>

       <tr bgcolor="white">
           <font color="{$fontColor}">
               <td colspan="4">Overall Test Result:<xsl:value-of select="$OVER_STATUS"/></td>
           </font>
       </tr>
   </table>
 </body>
 </html>
</xsl:template>
</xsl:stylesheet>

3、用MS谋数台湾学生成XSLT

一,成立二个xml文档

五、文书档案修改历史

 

四、如何使用XSLT

xml是要依照,xslt定制的构造进行变更,大概换句话说,xslt样式要依据xml结构去做

其三步,点击工作台的“测试”按钮,xslt就生成了,在“数据规则”窗口体现出来

其它累加的行放在了节点LOG_ENT陆风X八Y下,二个根节点下能够有多个LOG_ENTRY节点……..一个LOG_ENT瑞虎Y节点代码1行数据举办结果

MS谋数台有个图形化界面,把1雨后鞭笋html解析工具集成在协同,包含:

 

通过以上的操作,不用编制程序,用图形化界面直接在页面上标注,一分钟就可以生成xslt

 

MS谋数台界面分成3片段:DOM数窗口、内嵌浏览器窗口、工作台。在工作台上定义xslt转换规则。

            report = xmlD.createElement('REPORT')
            xmlD.appendChild(report)

在python使用xslt提取网页数据一文,大家把生成xslt作为一个字符串交给程序,给人感觉好像1转眼赶回了元代文明,前面讲的那么好,最终用了很原始的正片。其实不然,那二个只是两个事例。在《python即时网络爬虫项目:
内容提取器的定义》一文已经初见端倪了,有种种流入xslt的方法,最自动化的方法是api,将在后续小说中详尽讲解。

包括:

图片 2

 

有以上4点,基本成立三个xml没万分了.

采纳xml.dom.minidom就足以了,领悟多少个要点很简单就创办贰个xml

在此处能够定制好,大家要生成告诉,是怎样样子的,然后在从xml获取数据.

EXECUTION_TIME执行时间

相关文章