2019年5月10日 | 标签:

须要背景:

之前做了一个操纵google sheets的script功效经由进程百度api下载账户金额而后主动报警的东西

而后想到之前网站看到别人用Excel也做过近似的东西,可是经由进程的是PowerBI

可是那东西太庞杂了 就想着用VBA本身做了一个

 

操纵场景:

本身界说时辰账户的起头和竣事时辰,能够下载账户总的花费,也能够分周  分日 和分月

还能够下载每个打算的分周 分月 分日,乃至是每个关头词和每个创意的

不再用去登录账户了

以后跨账户的报告就能够用多少个如许的excel文件 翻开一次 就能够复制一向的值 到大表外面 晋升速率

 

先成果图(点击检查大图)

 

 

 

 

 

 

再放静态图

 

最初放链接

 

 

 

链接:

 

提取码: t2jy

 

 

 

外面有详细操纵方式

如若何守旧百度API

若是开启Excel宏

若何开启VBA中援用

 

3 条批评 (2,049 views)
2018年12月20日 | 标签:

收费sitemap 东西天生10万页面XML格局网站舆图

媒介

只需只处置过网站办理员或SEO使命的人必然不会对XML格局的sitemap目生,为了晋升搜刮引擎抓取网站的效力,须要把操纵东西把网站外面一切的页面的URL根据W3C的规范建造成索引文件,再经由进程搜刮引擎的站长东西提交。搜刮引擎蜘蛛就能够根据这个索引文件刻舟求剑,大风雅面的晋升抓取效力

以是这个xml版本的sitemap文件是刚需,可是能建造这个文件的方式确未几。普通是两类东西来建造。

网页东西:由于这个文件须要占用良多搜集资本 长时辰的爬取网页,国际根基不如许的雷锋,能够赞助你来做。就算外洋的东西,也只合用于爬去1000个页面之内的页面 ,若是页面再多就能干为力。必经搜集资本是有本钱的

别的一类是桌面东西:这类东西国产有良多,可是根基都是收费的,究竟成果别人开辟东西有本钱 并且这个东西不太大的粘度,根基上也没法带来流质变现,想找到一款合适的其实很难,机遇偶合我找到了一款。便是本文的配角山君舆图。它是一款良知东西,收费,绿色免装置,功效壮大,多线程,高度特性化定置。能装置法则爬取。

可是若是只是先容一款东西应用 网站有良多如许的笔墨,本文首要是先容在操纵这款东西爬取跨越10万多页面的网站的技能。若是只是爬取几千页面的笔墨,能够疏忽、

名目背景

今朝有一个国际客户,中文内容,今朝咱们的须要是建造一份中文的站点舆图文件。

名目挑衅:

网站是一个全站站点,外面链接错综庞杂,并且中英内容穿插,另有大批深不可测的网址(链接参数无线死轮回),操纵东西爬取了1天1夜,只能爬取10w个页面可是东西显现这个网站另有90万多的页面不爬取,并且这个未爬取的数目还在增添,照如许下去,10天10夜也没法完成使命

名目阐发思绪:

因而咱们就导出了已爬取的10w个页面,停止阐发,检查是甚么范例的链接,是不是都是须要的,若是不须要,若何防止被插手到sitemap,找出此中大局部不须要的网址的纪律,增添到爬取或过滤器中,提醒爬取效力

实行技能:

数据阐发东西的挑选:

这里要申明下 excel不是处置这类跨越十万行数据比拟好的方式,能够操纵sublime或tableau等,这里操纵excel首要是为了效力,由于其余东西不熟,而后东西速率慢,可是人的操纵谙练度比东西的效力对成果的影响更大,以是合适本身的东西才是最好的

过滤的战略:

这个东西有2个过滤战略,一个是爬取过滤,便是爬虫都不会去爬,另有一个是收录过滤

爬取过滤

便是决议是不是增添到sitemap中,在爬取过滤中已增添了一些剧本 邮件和谈等不能抓取的,其余默许都是能够抓取的,可是这个客户的网站有须要是其余国度的,咱们能够经由进程增添URL中其余国度的代码 把别的国度解除在外,或操纵包罗号令 只包罗本身国度代码的URL 过滤纪律 把其余国度的网址都解除在外

收录过滤

在收录过滤中咱们的能够把带有.html 作为包罗在内 ,这个客户的URL有良多套,带有参数的带有?的咱们都不须要他们真正须要优化的是html都已做了静态化.以是咱们做的url 须要包罗.html,可是也有一些惯比方.html/abc/dfdd?ddd  如许的,以是咱们就增添了一个解除号令.hmtl/ 如许的既不因此.html开头的咱们都解除

根基上操纵好过滤就能够把咱们抓取的页面从10w敏捷削减到2w,大大晋升抓取效力,如图咱们操纵了此中一个过滤方式后 从10w页面下降到6w

在增添一个解除字符串? 即把一切带有参数的网址都解除(可是仍是能够持续抓取,经由进程抓取能够这个页面上是不是另有其余复合请求的网址)

进一步优化空间:

这个东西的过滤法则 不撑持正则婚配,略微庞杂的法则就不能胜任,倡议增添正则婚配选项

今朝的包罗字符串法则 没法写并列包罗,也便是若是我须要抓取的网址

 包罗abc 还要同时包罗123 就没法知足

最初附上东西链接

链接: http://pan.baidu.com/s/1vfro0iNqYf9-qYwjVN7F8g 提取码: 2eu2

东西简略先容




 

不批评 (853 views)
2018年12月10日 | 标签:

名目背景

客户测验考试操纵了一个比拟长的单一网页去推行产物,页面上装有了GA的阐发东西,颠末一段时辰的推行,堆集了良多数据,但愿晓得用户对这类比拟长页面接管度

点击缩小检查长页面截图实例



名目难点

由于页面是单一页面,无任何跳转,以是经由进程GA是没法统计到用户的逗留时辰和跳出率的(GA须要操纵差别页面的跳转间的时辰差来计较逗留时辰,若是只要一个页面是,则该值永久为0),斟酌操纵拜候深度这个参数来权衡用户的黏度,既网民是不是拜候到长页面底部。可是GA的默许是不拜候深度这个功效,经由进程chrome插件增添的功效也不精确 不好操纵




处理思绪

须要监控的数据能够经由进程GA的事务追踪 Event Tracking来通报到GA里去,能够再页面的差别地位增添代码,当用户的转动栏滑动到指定地位,即触发代码,回传到GA




完成道理

经由进程JS取得用户以后的阅读器窗口的垂直偏离值,和全部页面的长和以后窗口的高度,经由进程这3者的计较能够取得用户以后的拜候深度(已看完页面百分之X的内容既拜候深度为X%)

停止轮回判定,当X=20%的时辰,触发GA的Event Tracking 代码将事务信息 event category为scrolling,event action 为20%,event label为以后页面URL 回传到GA 记实,同理能够记实触发别的3次拜候深度的数据




实行进程:

  • 数据的搜集:

将对应判定的JS代码增添到页面接近顶部地位, 可是须要在GA代码的下方(须要先触发GA代码,再触发Event Tracking code),操纵GA Debug东西检查是不是传递数据归去

  • 数据的清算:

颠末一段时辰的堆集,能够在GA的事务报告中看到咱们之前记实的信息,以下

咱们能够操纵GA的自界说报告功效从头编辑数据情势,增添2个拆分维度,拜候装备和

拜候时辰,又由于这里是拜候深度是详细数字,能够以20%的时辰数目为100%,推算出各自拜候深度的比例,比方90%的拜候比例是 90%的触发次数除以20%的触发次数

数据的可视化:

经由进程对时辰和装备的数据拆分,停止做图,能够看到差别时辰段的差别装备的拜候深度

数据的论断:

对照PC和Mobile数据

Mobile用户的拜候深度比拟不变,而PC用户动摇比拟大,在这申明PC用户在午餐和晚餐时辰(午时1点和早晨8点)是最不耐烦的,拜候深度最浅(去除姑且时辰),在这段时辰对PC用户停止告白推行成果不会很好,而在午餐前(11-12)和快放工(4-5点)PC用户的耐烦最好,情愿去看比拟庞杂的信息

零丁看Mobile用户的数据(PC数据变更大,需移除后看Mobile数据)

Mobile用户在早上的下班途中(8-9)是最有耐烦的,能够是交通东西上须要丁宁时辰,其次是下战书的1-3点饭后时辰,也是比拟有耐烦,能够是吃完饭须要看些信息同时消化食品,再其次是早晨11点睡前会有一个岑岭,能够是花费者夜深人静时辰会感性斟酌产物

不批评 (941 views)