pbootcms网站模板|日韩1区2区|织梦模板||网站源码|日韩1区2区|jquery建站特效-html5模板网

        <bdo id='atRmb'></bdo><ul id='atRmb'></ul>
      <tfoot id='atRmb'></tfoot>

    1. <small id='atRmb'></small><noframes id='atRmb'>

      <legend id='atRmb'><style id='atRmb'><dir id='atRmb'><q id='atRmb'></q></dir></style></legend>
      <i id='atRmb'><tr id='atRmb'><dt id='atRmb'><q id='atRmb'><span id='atRmb'><b id='atRmb'><form id='atRmb'><ins id='atRmb'></ins><ul id='atRmb'></ul><sub id='atRmb'></sub></form><legend id='atRmb'></legend><bdo id='atRmb'><pre id='atRmb'><center id='atRmb'></center></pre></bdo></b><th id='atRmb'></th></span></q></dt></tr></i><div class="koz5uwn" id='atRmb'><tfoot id='atRmb'></tfoot><dl id='atRmb'><fieldset id='atRmb'></fieldset></dl></div>

        使用 HTMLAgilityPack 僅提取頁面文本

        extracting just page text using HTMLAgilityPack(使用 HTMLAgilityPack 僅提取頁面文本)
        <tfoot id='00oAW'></tfoot>

        1. <legend id='00oAW'><style id='00oAW'><dir id='00oAW'><q id='00oAW'></q></dir></style></legend>
          • <bdo id='00oAW'></bdo><ul id='00oAW'></ul>

                  <tbody id='00oAW'></tbody>
                <i id='00oAW'><tr id='00oAW'><dt id='00oAW'><q id='00oAW'><span id='00oAW'><b id='00oAW'><form id='00oAW'><ins id='00oAW'></ins><ul id='00oAW'></ul><sub id='00oAW'></sub></form><legend id='00oAW'></legend><bdo id='00oAW'><pre id='00oAW'><center id='00oAW'></center></pre></bdo></b><th id='00oAW'></th></span></q></dt></tr></i><div class="5c50qsc" id='00oAW'><tfoot id='00oAW'></tfoot><dl id='00oAW'><fieldset id='00oAW'></fieldset></dl></div>

                  <small id='00oAW'></small><noframes id='00oAW'>

                  本文介紹了使用 HTMLAgilityPack 僅提取頁面文本的處理方法,對大家解決問題具有一定的參考價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)吧!

                  問題描述

                  好的,所以我對 HTMLAgilityPack 中使用的 XPath 查詢真的很陌生.

                  Ok so i am really new to XPath queries used in HTMLAgilityPack.

                  讓我們考慮這個頁面 http://health.yahoo.net/articles/healthcare/what-your-favorite-flavor-says-about-you.我想要的是只提取頁面內(nèi)容而不是其他內(nèi)容.

                  So lets consider this page http://health.yahoo.net/articles/healthcare/what-your-favorite-flavor-says-about-you. What i want is to extract just the page content and nothing else.

                  為此,我首先刪除腳本和樣式標(biāo)簽.

                  So for that i first remove script and style tags.

                  Document = new HtmlDocument();
                          Document.LoadHtml(page);
                          TempString = new StringBuilder();
                          foreach (HtmlNode style in Document.DocumentNode.Descendants("style").ToArray())
                          {
                              style.Remove();
                          }
                          foreach (HtmlNode script in Document.DocumentNode.Descendants("script").ToArray())
                          {
                              script.Remove();
                          }
                  

                  之后我嘗試使用//text() 來獲取所有文本節(jié)點(diǎn).

                  After that i am trying to use //text() to get all the text nodes.

                  foreach (HtmlTextNode node in Document.DocumentNode.SelectNodes("http://text()"))
                          {
                              TempString.AppendLine(node.InnerText);
                          }
                  

                  但是,我不僅得到了文本,而且還得到了許多/r/n 字符.

                  However not only i am not getting just text i am also getting numerous /r /n characters.

                  在這方面我需要一些指導(dǎo).

                  Please i require a little guidance in this regard.

                  推薦答案

                  如果你認(rèn)為 scriptstyle 節(jié)點(diǎn)只有孩子的文本節(jié)點(diǎn),你可以使用這個XPath 表達(dá)式獲取不在 scriptstyle 標(biāo)記中的文本節(jié)點(diǎn),這樣您就無需事先刪除節(jié)點(diǎn):

                  If you consider that script and style nodes only have text nodes for children, you can use this XPath expression to get text nodes that are not in script or style tags, so that you don't need to remove the nodes beforehand:

                  //*[not(self::script or self::style)]/text()
                  

                  您可以使用 XPath 的 normalize-space() 進(jìn)一步排除純空格的文本節(jié)點(diǎn):

                  You can further exclude text nodes that are only whitespace using XPath's normalize-space():

                  //*[not(self::script or self::style)]/text()[not(normalize-space(.)="")]
                  

                  或更短的

                  //*[not(self::script or self::style)]/text()[normalize-space()]
                  

                  但您仍然會得到可能有前導(dǎo)或尾隨空格的文本節(jié)點(diǎn).這可以按照@aL3891 的建議在您的應(yīng)用程序中處理.

                  But you will still get text nodes that may have leading or trailing whitespace. This can be handled in your application as @aL3891 suggests.

                  這篇關(guān)于使用 HTMLAgilityPack 僅提取頁面文本的文章就介紹到這了,希望我們推薦的答案對大家有所幫助,也希望大家多多支持html5模板網(wǎng)!

                  【網(wǎng)站聲明】本站部分內(nèi)容來源于互聯(lián)網(wǎng),旨在幫助大家更快的解決問題,如果有圖片或者內(nèi)容侵犯了您的權(quán)益,請聯(lián)系我們刪除處理,感謝您的支持!

                  相關(guān)文檔推薦

                  Ignore whitespace while reading XML(讀取 XML 時忽略空格)
                  XML to LINQ with Checking Null Elements(帶有檢查空元素的 XML 到 LINQ)
                  Reading XML with unclosed tags in C#(在 C# 中讀取帶有未閉合標(biāo)簽的 XML)
                  Parsing tables, cells with Html agility in C#(在 C# 中使用 Html 敏捷性解析表格、單元格)
                  delete element from xml using LINQ(使用 LINQ 從 xml 中刪除元素)
                  Parse malformed XML(解析格式錯誤的 XML)

                1. <legend id='40l5D'><style id='40l5D'><dir id='40l5D'><q id='40l5D'></q></dir></style></legend>
                          <bdo id='40l5D'></bdo><ul id='40l5D'></ul>
                          <i id='40l5D'><tr id='40l5D'><dt id='40l5D'><q id='40l5D'><span id='40l5D'><b id='40l5D'><form id='40l5D'><ins id='40l5D'></ins><ul id='40l5D'></ul><sub id='40l5D'></sub></form><legend id='40l5D'></legend><bdo id='40l5D'><pre id='40l5D'><center id='40l5D'></center></pre></bdo></b><th id='40l5D'></th></span></q></dt></tr></i><div class="kl04ovq" id='40l5D'><tfoot id='40l5D'></tfoot><dl id='40l5D'><fieldset id='40l5D'></fieldset></dl></div>

                          <small id='40l5D'></small><noframes id='40l5D'>

                          <tfoot id='40l5D'></tfoot>

                            <tbody id='40l5D'></tbody>

                            主站蜘蛛池模板: 澳威全屋定制官网|极简衣柜十大品牌|衣柜加盟代理|全屋定制招商 百度爱采购运营研究社社群-店铺托管-爱采购代运营-良言多米网络公司 | 冷库安装厂家_杭州冷库_保鲜库建设-浙江克冷制冷设备有限公司 | 带式过滤机厂家_价格_型号规格参数-江西核威环保科技有限公司 | VOC检测仪-甲醛检测仪-气体报警器-气体检测仪厂家-深恒安科技有限公司 | 气力输送_输送机械_自动化配料系统_负压吸送_制造主力军江苏高达智能装备有限公司! | 无线讲解器-导游讲解器-自助讲解器-分区讲解系统 品牌生产厂家[鹰米讲解-合肥市徽马信息科技有限公司] | 波纹补偿器_不锈钢波纹补偿器_巩义市润达管道设备制造有限公司 | 洛阳永磁工业大吊扇研发生产-工厂通风降温解决方案提供商-中实洛阳环境科技有限公司 | 阴离子_阳离子聚丙烯酰胺厂家_聚合氯化铝价格_水处理絮凝剂_巩义市江源净水材料有限公司 | 国际金融网_每日财经新资讯网 | 超声波_清洗机_超声波清洗机专业生产厂家-深圳市好顺超声设备有限公司 | 青岛侦探_青岛侦探事务所_青岛劝退小三_青岛婚外情取证-青岛王军侦探事务所 | 无锡网站建设-做网站-建网站-网页设计制作-阿凡达建站公司 | 奶茶加盟,奶茶加盟店连锁品牌-甜啦啦官网 | 临朐空调移机_空调维修「空调回收」临朐二手空调 | 磁力去毛刺机_去毛刺磁力抛光机_磁力光饰机_磁力滚抛机_精密金属零件去毛刺机厂家-冠古科技 | 对照品_中药对照品_标准品_对照药材_「格利普」高纯中药标准品厂家-成都格利普生物科技有限公司 澳门精准正版免费大全,2025新澳门全年免费,新澳天天开奖免费资料大全最新,新澳2025今晚开奖资料,新澳马今天最快最新图库 | 阻垢剂-反渗透缓蚀阻垢剂厂家-山东鲁东环保科技有限公司 | 大_小鼠elisa试剂盒-植物_人Elisa试剂盒-PCR荧光定量试剂盒-上海一研生物科技有限公司 | 气胀轴|气涨轴|安全夹头|安全卡盘|伺服纠偏系统厂家-天机传动 | 气密性检测仪_气密性检测设备_防水测试仪_密封测试仪-岳信仪器 | 防水接头-电缆防水接头-金属-电缆密封接头-不锈钢电缆接头 | 双工位钻铣攻牙机-转换工作台钻攻中心-钻铣攻牙机一体机-浙江利硕自动化设备有限公司 | 耐磨焊丝,堆焊焊丝,耐磨药芯焊丝,碳化钨焊丝-北京耐默公司 | 机器视觉检测系统-视觉检测系统-机器视觉系统-ccd检测系统-视觉控制器-视控一体机 -海克易邦 | 菏泽商标注册_菏泽版权登记_商标申请代理_菏泽商标注册去哪里 | 变位机,焊接变位机,焊接变位器,小型变位机,小型焊接变位机-济南上弘机电设备有限公司 | 圣才学习网-考研考证学习平台,提供万种考研考证电子书、题库、视频课程等考试资料 | 上海皓越真空设备有限公司官网-真空炉-真空热压烧结炉-sps放电等离子烧结炉 | 低浓度恒温恒湿称量系统,强光光照培养箱-上海三腾仪器有限公司 | 净化车间装修_合肥厂房无尘室设计_合肥工厂洁净工程装修公司-安徽盛世和居装饰 | 青岛成人高考_山东成考报名网| 氧化铝球_高铝球_氧化铝研磨球-淄博誉洁陶瓷新材料有限公司 | PSI渗透压仪,TPS酸度计,美国CHAI PCR仪,渗透压仪厂家_价格,微生物快速检测仪-华泰和合(北京)商贸有限公司 | 分子精馏/精馏设备生产厂家-分子蒸馏工艺实验-新诺舜尧(天津)化工设备有限公司 | IHDW_TOSOKU_NEMICON_EHDW系列电子手轮,HC1系列电子手轮-上海莆林电子设备有限公司 | 隧道烘箱_隧道烘箱生产厂家-上海冠顶专业生产烘道设备 | 蔡司三坐标-影像测量机-3D扫描仪-蔡司显微镜-扫描电镜-工业CT-ZEISS授权代理商三本工业测量 | 杜康白酒加盟_杜康酒代理_杜康酒招商加盟官网_杜康酒厂加盟总代理—杜康酒神全国运营中心 | SEO网站优化,关键词排名优化,苏州网站推广-江苏森歌网络 | 奶茶加盟,奶茶加盟店连锁品牌-甜啦啦官网 |