pbootcms网站模板|日韩1区2区|织梦模板||网站源码|日韩1区2区|jquery建站特效-html5模板网

PHP寫微信公眾號(hào)文章頁采集方法

給大家分析一下如何用PHP寫出采集微信公眾號(hào)文章的方法以及代碼詳細(xì)講解,需要的朋友學(xué)習(xí)一下。

通過搜狗搜索采集公眾號(hào)歷史消息有幾個(gè)問題:

1、有驗(yàn)證碼;

2、歷史消息列表只有最近10條群發(fā)內(nèi)容;

3、文章地址是有有效期的;

4、據(jù)說批量采集還要換ip;

通過我前面文章的方法就沒有這些問題,雖然采集系統(tǒng)搭建不如傳統(tǒng)采集器寫個(gè)規(guī)則去爬就可以了那么簡(jiǎn)單。但是一次搭建好之后批量采集的效率還是可以的。而且采集的文章地址是永久有效的,并且可以采集到一個(gè)公眾號(hào)所有的歷史消息。
我們還是從一個(gè)公眾號(hào)文章的鏈接地址開始看:

1、從微信右上角菜單復(fù)制到的鏈接地址:

http://mp.weixin.qq.com/s/fF34bERZ0je_8RWEJjoZ5A

2、歷史消息列表中獲取到的地址:

http://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=4#wechat_redirect

3、完整的真實(shí)地址:

https://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=37&key=c81d77271180a0e6ce32be2d9dcaa2a7436aeba2c1d47a20d02194d1c944a8286a8eded93495eeadd05da412bbfaa638a379750aeaa4cf5c00e4d7851c5710d9b9736b80e3c72770a57a515c23ff2400&ascene=3&uin=MzUyOTIyNQ%3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%3D&wx_header=1

以上這3個(gè)地址是同一篇文章的地址,在不同位置獲取到就得到了完全不同的3個(gè)結(jié)果。

和歷史消息頁一樣,微信有一套自動(dòng)補(bǔ)充參數(shù)的機(jī)制。第一個(gè)地址是復(fù)制鏈接得到的,看起來是一個(gè)偽裝的編碼。其實(shí)沒什么用我們不做考慮了。第二個(gè)地址是通過前面文章介紹的方法,從歷史消息的json文章列表中獲得到的鏈接地址,我們就是可以將這個(gè)地址保存到數(shù)據(jù)庫(kù)中。之后就可以通過這個(gè)地址從服務(wù)器獲取到文章內(nèi)容。而第三個(gè)鏈接補(bǔ)充了參數(shù)之后,目的是為了讓文章頁面中的閱讀量js可以獲取到閱讀量點(diǎn)贊量的json結(jié)果而加上的參數(shù)。我們前面文章的方法中因?yàn)槲恼马撁姹豢蛻舳舜蜷_顯示了出來,因?yàn)橛辛诉@些參數(shù),文章頁面中的js就去自動(dòng)獲取閱讀量了,所以我們才能通過代理服務(wù)獲取到這篇文章的閱讀量。

這篇文章的內(nèi)容就是以通過本專欄前面文章介紹的方法已經(jīng)獲取到了大量微信文章的基礎(chǔ)上,詳細(xì)研究如何獲取到文章內(nèi)容和其它一些有用的信息的方法。

PHP寫微信公眾號(hào)文章頁采集方法

(我的數(shù)據(jù)庫(kù)中保存的文章列表,一部分字段)

1、獲取文章源代碼:

通過php的函數(shù)file_get_content()就可以將文章源代碼讀取到變量中。微信文章的源代碼因?yàn)榭梢詮臑g覽器中打開所以我就不在這里粘貼了,以免浪費(fèi)頁面空間。

<?
//$content_url 變量的值為文章地址
$html = file_get_contents($content_url);
?>

2、源代碼中有用的信息:

1)原文內(nèi)容:

原文內(nèi)容是包含在一個(gè)<div id='js_content'></div>標(biāo)簽中的,通過php代碼獲?。?/p>

<?
preg_match_all("/id=\"js_content\">(.*)<script/iUs",$html,$content,PREG_PATTERN_ORDER);
$content = "<div id='js_content'>".$content[1][0];
?>

正則的開頭識(shí)別<div id='js_content'>,結(jié)尾識(shí)別<script/iUs,匹配到之后前面再補(bǔ)充一個(gè)<div id='js_content'>;我的正則匹配水平有限,只能寫成這樣的了。希望有高人能指點(diǎn)更好的正則匹配方法。

另外注意:這個(gè)匹配規(guī)則會(huì)可能在一段時(shí)間之后有變化。這篇文章會(huì)盡量保持更新。如果你根據(jù)我的文章制作了采集系統(tǒng)之后,當(dāng)某一天失效了,別忘了回來再看看文章是否有更新。

2)內(nèi)容處理:

通過上面的方法我們獲得了文章內(nèi)容的html,但是你將文章內(nèi)容顯示出來之后就會(huì)發(fā)現(xiàn),圖片和視頻不能正常顯示。因?yàn)檫@個(gè)html還需要一些加工:

首先是圖片,微信文章中的<img>標(biāo)簽中的src屬性全部都用了src屬性代替。只有在顯示的時(shí)候才會(huì)被替換過來。所以我們也有兩個(gè)方案,將源代碼直接替換過來,或者用js在顯示時(shí)候再替換。下面我先介紹直接替換html的方法:

<?
//$content變量的值是前面獲取到的文章內(nèi)容html
$content = str_replace("src","src",$content);
?>
【網(wǎng)站聲明】本站除付費(fèi)源碼經(jīng)過測(cè)試外,其他素材未做測(cè)試,不保證完整性,網(wǎng)站上部分源碼僅限學(xué)習(xí)交流,請(qǐng)勿用于商業(yè)用途。如損害你的權(quán)益請(qǐng)聯(lián)系客服QQ:2655101040 給予處理,謝謝支持。

相關(guān)文檔推薦

這篇文章主要介紹了PHP定義字符串的四種方式,非常不錯(cuò),具有參考借鑒價(jià)值,需要的朋友可以參考下
下面小編就為大家分享一篇php 替換文章中的圖片路徑,下載圖片到本地服務(wù)器的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
下面小編就為大家分享一篇PHP給源代碼加密的幾種方法匯總(推薦),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
下面小編就為大家分享一篇php打開本地exe程序,js打開本地exe應(yīng)用程序,并傳遞相關(guān)參數(shù)方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
這篇文章主要介紹了PHP類的反射來實(shí)現(xiàn)依賴注入過程以及相關(guān)知識(shí)點(diǎn)分享,對(duì)此有興趣的朋友跟著小編學(xué)習(xí)下吧。
php遍歷一個(gè)文件夾內(nèi)的所有文件和文件夾,并刪除所有文件夾和子文件夾下的所有文件的代碼,通過遞歸方式實(shí)現(xiàn)達(dá)到清空一個(gè)目錄的效果。本文給大家分享實(shí)例代碼,需要的朋友參考
主站蜘蛛池模板: 碳纤维复合材料制品生产定制工厂订制厂家-凯夫拉凯芙拉碳纤维手机壳套-碳纤维雪茄盒外壳套-深圳市润大世纪新材料科技有限公司 | ERP企业管理系统永久免费版_在线ERP系统_OA办公_云版软件官网 | 网站建设-高端品牌网站设计制作一站式定制_杭州APP/微信小程序开发运营-鼎易科技 | 网站优化公司_SEO优化_北京关键词百度快速排名-智恒博网络 | 环球周刊网| 铣刨料沥青破碎机-沥青再生料设备-RAP热再生混合料破碎筛分设备 -江苏锡宝重工 | 电梯乘运质量测试仪_电梯安全评估测试仪-武汉懿之刻 | 气动球阀_衬氟蝶阀_调节阀_电动截止阀_上海沃托阀门有限公司 | 耐腐蚀泵,耐腐蚀真空泵,玻璃钢真空泵-淄博华舜耐腐蚀真空泵有限公司 | 广州监控安装公司_远程监控_安防弱电工程_无线wifi覆盖_泉威安防科技 | 祝融环境-地源热泵多恒系统高新技术企业,舒适生活环境缔造者! | 股指期货-期货开户-交易手续费佣金加1分-保证金低-期货公司排名靠前-万利信息开户 | 河南生物显微镜,全自动冰冻切片机-河南荣程联合科技有限公司 | 整合营销推广|营销网络推广公司|石家庄网站优化推广公司|智营销 好物生环保网、环保论坛 - 环保人的学习交流平台 | 北京百度网站优化|北京网站建设公司-百谷网络科技 | 万家财经_财经新闻_在线财经资讯网| 袋式过滤器,自清洗过滤器,保安过滤器,篮式过滤器,气体过滤器,全自动过滤器,反冲洗过滤器,管道过滤器,无锡驰业环保科技有限公司 | 污水提升器,污水提升泵,污水提升装置-德国泽德(zehnder)水泵系统有限公司 | 粉末包装机-给袋式包装机-全自动包装机-颗粒-液体-食品-酱腌菜包装机生产线【润立机械】 | 咖啡加盟-咖啡店加盟-咖啡西餐厅加盟-塞纳左岸咖啡西餐厅官网 | 并离网逆变器_高频UPS电源定制_户用储能光伏逆变器厂家-深圳市索克新能源 | 深圳市万色印象美业有限公司 | 精益专家 - 设备管理软件|HSE管理系统|设备管理系统|EHS安全管理系统 | 洛阳装修公司-洛阳整装一站式品牌-福尚云宅装饰 | PCB接线端子_栅板式端子_线路板连接器_端子排生产厂家-置恒电气 喷码机,激光喷码打码机,鸡蛋打码机,手持打码机,自动喷码机,一物一码防伪溯源-恒欣瑞达有限公司 假肢-假肢价格-假肢厂家-河南假肢-郑州市力康假肢矫形器有限公司 | 杜康白酒加盟_杜康酒代理_杜康酒招商加盟官网_杜康酒厂加盟总代理—杜康酒神全国运营中心 | DAIKIN电磁阀-意大利ATOS电磁阀-上海乾拓贸易有限公司 | 聚合氯化铝厂家-聚合氯化铝铁价格-河南洁康环保科技 | 健身器材-健身器材厂家专卖-上海七诚健身器材有限公司 | 量子管通环-自清洗过滤器-全自动反冲洗过滤器-北京罗伦过滤技术集团有限公司 | 石栏杆_青石栏杆_汉白玉栏杆_花岗岩栏杆 - 【石雕之乡】点石石雕石材厂 | 示波器高压差分探头-国产电流探头厂家-南京桑润斯电子科技有限公司 | 权威废金属|废塑料|废纸|废铜|废钢价格|再生资源回收行情报价中心-中废网 | 拼装地板,悬浮地板厂家,悬浮式拼装运动地板-石家庄博超地板科技有限公司 | 超声骨密度仪,双能X射线骨密度仪【起草单位】,骨密度检测仪厂家 - 品源医疗(江苏)有限公司 | 上海小程序开发-小程序制作-上海小程序定制开发公司-微信商城小程序-上海咏熠 | 电缆隧道在线监测-智慧配电站房-升压站在线监测-江苏久创电气科技有限公司 | 蓝米云-专注于高性价比香港/美国VPS云服务器及海外公益型免费虚拟主机 | 超声骨密度仪,双能X射线骨密度仪【起草单位】,骨密度检测仪厂家 - 品源医疗(江苏)有限公司 | 送料机_高速冲床送料机_NC伺服滚轮送料机厂家-东莞市久谐自动化设备有限公司 | 渣油泵,KCB齿轮泵,不锈钢齿轮泵,重油泵,煤焦油泵,泊头市泰邦泵阀制造有限公司 |