设为首页收藏本站

中国会计视野论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

查看: 2884|回复: 0

[经验] 审计经验-我如何搞到上市公司审计报告非标意见数据?

[复制链接]
发表于 2019-10-9 14:55:24 | 显示全部楼层 |阅读模式
  美国注册管理会计师认证(CMA®)
现报名CMA享受7折优惠。
CMA获得政府及各大企业集团一致推荐
CMA是您挖掘职业潜能的通关秘钥
 

视野思享会年费会员
一年内免费直播参与
历届活动视频回放
与爱学习群体共同成长

 

欢迎订阅会计视野微信公众号
第一时间了解最新财会知识
碎片化学习新方法
200万读者追随的真爱选择。

本帖最后由 qtsj 于 2019-10-9 15:31 编辑

非标意见指的是标准无保留意见外的其他意见,如带强调事项段的无保留意见、否定意见、无法表示意见等。
当我们遇到审计报告需要发表非标意见时,可能需要参考其他非标意见的审计报告。
而这些审计报告都在PDF文件中,如何提取就是一个难点。

一、下载所有非标意见审计报告。
要提取数据,首先第一步,得有原材料。
所以,利用python的scrapy框架编写一个爬虫,批量爬取上市公司的审计报告。


注:由于审计报告中很多是图片格式,所以,我们退而求其次,爬取公司年报。年报里包含有审计报告内容。




二、将PDF转换为HTML文件
提取数据的难题就是如何定位。
如下图所示,审计报告内容散布在大量文本信息中,对于纯文本内容是几乎无法准确找到相应位置的。


因此,首先将其转换为HTML格式,然后通过Python的lxml库提取相应元素。

三、提取数据
通过xpath定位,以及正则表达式,准确提取出相关非标意见。


编写好程序后,进行批量提取,并存入数据库。

把2017、2018年非标意见存入数据库,如下图所示:


有意思的事

在提取过程中发现很多公司披露的年报格式很不规范,甚至还有出现上图的错误。
大家可以关注我的微信公众号“逆行的狗”,公众号上发布我制作一些提高审计效率的小工具,扫下面二维码即可关注!
公众号二维码.jpg

评分

1

查看全部评分

您需要登录后才可以回帖 登录 | 注册 新浪微博登陆

本版积分规则

手机版|中国会计视野论坛 ( 沪ICP备05013522号-2  

GMT+8, 2019-10-21 14:13

Powered by Discuz! X3.3

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表