设为首页收藏本站

中国会计视野论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

查看: 4412|回复: 5

[经验] 审计经验-IT审计之python爬虫实战(三):学习范围

[复制链接]
发表于 2019-10-9 15:44:21 | 显示全部楼层 |阅读模式
  美国注册管理会计师认证(CMA®)
现报名CMA享受7折优惠。
CMA获得政府及各大企业集团一致推荐
CMA是您挖掘职业潜能的通关秘钥
 

视野思享会年费会员
一年内免费直播参与
历届活动视频回放
与爱学习群体共同成长

 

欢迎订阅会计视野微信公众号
第一时间了解最新财会知识
碎片化学习新方法
200万读者追随的真爱选择。

本帖最后由 qtsj 于 2019-10-9 15:46 编辑


编写一个爬虫的大致步骤可以分成四步:
1、分析抓包。
2、爬取数据。
3、数据处理。
4、数据存储。
不管你用什么语言写爬虫,基本上就是这四个步骤。
一个没有编程基础的同学学习python会走一些弯路,就是很多教程或课程为了知识的广度,把什么库都会介绍一遍。
但是大家跟着这样学可能不是最佳的选择,因为你会迟迟写不出像样的东西,获取不到你想要的数据。
我们就像考试一样,给你画个重点,你要学什么基本上可以用20%的精力达到80%的效果。
伤其十指不如断其一指。
一、抓包分析
我们要获取一个网站的数据,那么就要向一个网址发送请求和参数。
网站会根据我们请求,响应返回数据。
那么第一步就是搞清楚我们要发送的网址是什么,参数是什么,以及响应后数据的结构,方便我们提取。
而这个工作,就需要抓包分析。
  • Chrome浏览器。
    带chrome内核的浏览器应该都可以,比如QQ浏览器。
    当你输入你的网址后,按f12可以进行抓包分析。
  • fiddle。
    这是一个抓包工具,比较强大。
二、爬取数据
我们经过抓包分析后,就需要发送请求。
发送请求python有很多库,你就用requests这个库,超级方便、强大、简洁。基本上能满足你80%的需求。
如果像那种滑动的验证码你就需要用selenium库,模仿人打开浏览器,点击、滑动操作来实现。
三、数据处理
返回的数据无外乎三种格式:
HTML、XML、JSON。
对于前两种可以用lxml库里的xpath来解析,简洁、强大。
JSON数据格式就用json库。
所以,你只需要掌握这两个库就行了,好学、简单。
当然正则表达式有时候也需要用到,但是机会很少。
因为前面两个库已经足够强大。
四、数据存储
把数据处理提取后形成了结构化数据,那么我们就需要存储。
你可以存csv、excel、数据库、json等等,都可以。
我们审计师常用的就是csv、excel、mysql数据库了吧。
前两种直接用pandas库,异常简单、方便,特别适合处理二维表。
mysql就需要用到pymysql库了。
掌握这两个库就可以了。
五、其他
以上是四个基本步骤需要掌握学习的最简单粗暴的东西。
在完成上述学习后,你可以学习破解各种验证码、使用代理防止IP被禁等反爬技术。
同时,为了提高效率,可以学习scrapy爬虫框架。
scrapy是什么?就相当于如果我们把爬虫比作是搞一辆跑车,你自己写的话需要从买钢材开始,做车身,搞发动机,用橡胶造轮子。
而scrapy框架就是别人把发动机、车身、轮子已经给你造好,你就是完成组装就行了。
六、结语
学习最大的动力还是兴趣。
很多审计师不知道爬虫对审计实务有什么用?
实际上,有什么用完全取决于你的想象力。


你做存货,你可以去爬原材料价格。
你做金融资产,你可以获取股票、债券价格。
你做互联网公司,你可以爬一些统计网站统计的PV、IP等数据。
你做电商,可以爬公开销售数量、用户评价等信息。
爬虫是一个工具,发挥出多大威力,就看你的想象力多大。
大家可以关注我的微信公众号“逆行的狗”,公众号上发布我制作一些提高审计效率的小工具,扫下面二维码即可关注!
公众号二维码.jpg
发表于 2019-10-10 09:12:13 | 显示全部楼层
要是直接分享一些现成的工具就好了
发表于 2019-10-10 15:39:13 | 显示全部楼层
Beautifsoup库也比较常用,我基本上是requests+Beautifsoup+re
发表于 2019-10-10 15:49:11 | 显示全部楼层
谢谢分享。
发表于 2019-10-10 16:14:52 | 显示全部楼层
发表于 2019-10-11 10:09:09 | 显示全部楼层
感谢总结,正愁考出cpa,也会python,不知道怎么结合呢
您需要登录后才可以回帖 登录 | 注册 新浪微博登陆

本版积分规则

手机版|中国会计视野论坛 ( 沪ICP备05013522号-2  

GMT+8, 2019-10-21 12:47

Powered by Discuz! X3.3

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表