原创 | 大语言模型赋能审计场景
2024-09-20
在数字化时代下,人工智能(AI)技术已深入到社会的各个领域,尤其是近年来,随着大模型技术的兴起和普及,AI正在引领着一场全面的社会变革,以前所未有的速度和规模改变着我们的生活和工作方式,成为推动社会进步的关键力量。AI大模型因其强大的数据处理能力和广泛的应用前景,已经成为全球科技竞争的新高地,为推进和支持大模型的应用落地,我国国家层面和各省市地区均已经发布了一系列政策措施,如《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》、《北京市推动“人工智能+”行动计划(2024-2025年)》、《上海市促进工业服务业赋能产业升级行动方案(2024-2027年)》和《支持人工智能全产业链高质量发展的若干措施》等。


大型语言模型(LLM)是大模型技术的首个兴起领域,LLM的研究为自然语言处理(NLP)技术带来了突破性进展,通过拓展模型的规模和参数数量,实现了性能的显著提升,在语言理解、文本生成等任务上展现出了强大的能力。LLM从基础的文本分析到复杂的智能决策支持等多个层面,在各垂直行业领域中具备非常广泛的应用,如在智慧医疗领域用于门诊病历的自动生产成、在金融领域用于风险评估和智能投顾、在教育领域用于个性化学习推荐和智能辅导、在法律行业用于案例分析和合同审查等等,垂直行业大模型的应用已成为趋势。
在审计领域中,无论是审计实施过程中还是在审计成果里均存在大量的非结构化文本数据,而非结构化审计成果的复用、大量资料的审查和文书的撰写一直是审计人员的工作重点和难点。本文将结合我司智慧审计解决方案的部分功能设计,按审计工作的主要流程,依次介绍LLM在各阶段的场景赋能应用。

审计前阶段

在审前阶段,审计人员需要确定本次审计工作的被审计对象、审计事项和审计组成员等信息。其中,被审计对象和审计事项的决策应该充分全面地考虑到历史审计覆盖率、屡查屡犯问题、重大决策部署政策文件和审计做工指导性文件等因素,而历史审计成果和政策文件这类非结构化数据的有效管理和运用一直是审计工作的难点。

利用LLM可以首先实现对此类非结构化数据的关键信息提取,然后再通过数据分析和LLM相结合的方式进一步实现被审计对象和审计事项的推荐,辅助审计人员做成决策,具体如下:

(1)关键信息提取

利用LLM的语义理解能力和文本生成能力,分析历史审计成果(如,审计底稿、审计报告等)和政策文件(如,重大决策部署政策文件、“十四五”发展规划、数据要素规划等),自动提取文档中的关键信息,获取各审计对象的历史审计情况和当地规划中的重点任务或事项。其中,审计对象的历史审计情况包括历史被审时间、审计发现问题、发现问题的事项和问题金额等,可形成历史审计成果知识库,智能化管理历史审计成果文件的同时,提高审计成果的复用率。

(2)智能推荐

基于历史审计成果知识库中各被审计对象的历史审计情况,利用数据分析技术获取需要重点关注的被审计对象和对应的审计事项,进一步地,再利用LLM对数据分析的结果和政策文件提取的关键信息进行语义理解与分析,进而实现对被审计对象和重点关注事项的推荐,辅助审计人员的审前方案编排工作。

ec29e895e6a76bac1b27d906514bc2f.png


在本阶段中,完成被审计对象、审计事项等信息的编排后,亦可以借助LLM辅助相关审计过程文书的撰写。即利用相关决策信息和审计业务知识,通过LLM的文本生成能力完成审计实施方案和审计通知书的初稿生成,为审计人员减少大量的文书撰写工作。

项目实施阶段

审计工作进行到项目实施阶段,审计人员需要对财务报表、会议纪要、招投标文件、政策文件、合同等大量结构化和非结构化数据进行分析解读,审查发现其中涉嫌的违规违纪问题,这是审计人员工作量最大的一个环节,也是LLM发挥作用的最主要场景。庞大的数据量使得审计人员的工作量大得难以想象,并且有限的时间导致审计的深度和广度也受到了影响。利用LLM可提前为审计人员在所有的数据中快速排查和筛选出可疑数据,并提供预警提醒,从而提高审计效率,使得审计人员可以将更多的时间和精力集中于高难度的疑点问题审查上。

(1)结构化数据

对于财务报表等结构化数据,审计人员常常通过积累的审计模型先进行疑点问题的排查和预警,然后通过数据库的相关操作进行更多问题的审查,这样的工作模式对审计模型的储备量和审计人员的SQL技术能力提出了较高的要求,而人工筛查又费时费力且较难保证全面性和准确性。如下图所示,利用LLM和相关知识库,可以根据待审查问题的语义描述,实现SQL命令的自动生成,降低审计人员撰写SQL命令的门槛;此外,在使用过程中逐步实现丰富模型储备量的同时,还能使得LLM生成的SQL命令越来越符合审计人员的业务需求,达到持续优化的效果。

8bd6123498083d9c3a88e0e68697fdd.png

(2 )非结构化数据

会议纪要、合同、招投标文件等非结构化数据作为审计工作的关键信息来源,对其的数据分析一直是工作难点,因为审计人员需要手动处理和翻阅大量的文档数据,人工进行文本信息的阅读理解与内容比对,占据了审计人员大量的工作时间。利用LLM进行关键信息的提取、文本信息的语义理解和文本信息的差异比对与相似度评估,帮助审计人员更多更便捷地利用非结构化数据中的信息,为其在大量数据中缩小审查范围。例如,批量进行投标文件的相似度评估实现可疑标段的预警;对合同的关键信息提取后,进行文本比对实现阴阳合同等可疑数据的预警;提取招标文件和投标文件的关键信息后,可以进一步实现包括合同签订与招标文件不一致、重复招标和跨档评分等疑点问题的预警。与传统抽样调查相比,提供了更加全面、更加准确的审计证据,实现审计效率提高的同时,还能增强审计的深度和广度。

eb3c06d0792eefef48b6bcaf4de5ebf.png


接着,审计人员审查发现问题后,需要对问题进行定性和定性依据的引用。在传统的审计工作中,对于问题定性往往存在较大的主观因素影响,对于不同审计人员,由于其工作经验的不同,对同样的问题描述也可能做出不同的问题定性,尤其若是工作经验尚浅的审计人员,甚至可能存在定性不准确的风险;对于定性依据的引用,则是需要审计人员查阅大量相关的法律法规或规章制度进而做出决策。利用LLM对审查发现的问题描述进行语义理解,可以实现问题的自动定性,再根据问题定性进行相关法规制度条款的推荐,基于审计成果结构化构建起来的知识库,还能依据语义理解进行历史同类问题的推荐供审计人员参考。相较于传统的审计工作模式,使用LLM实现赋能降低了主观因素影响,同时减少了审计人员查阅法规制度的时间,能实现审计工作效率和准确性的显著提高。

审计文书阶段

在审计文书阶段,审计人员需要依据实施阶段的审查结果完成取证单、审计底稿和审计报告等审计文书的撰写,繁琐的文书撰写工作需要耗费审计人员大量的时间,特别是从无到有的这个过程,需要进行各种资料的查阅和整合。利用LLM可以实现各类审计文书初稿的自动生成,提高审计人员的文书撰写效率。此外,在以往的审计工作中已积累了大量的审计文书资料,利用LLM还可以实现在这些历史文书资料中检索出具有相似语义的文本段落,辅助审计人员在文书的撰写修订过程中,能快速获取有用的历史资料作为参考,提高资料检索的效率和准确性。

e5420a6bfab3b12b778eff56cbb96f9.png


审理阶段

在审理阶段,利用LLM可以自动分析审计过程中产生的取证单和审计底稿等文书,辅助审计人员完成审计问题定性、定性依据引用、处分处理决定和处分处理依据引用的合理性研判,LLM还可以依据审计过程和结果实现对本次审计工作质量的评估,为审计人员在审理工作中提供参考,减少审计人员手动翻阅大量数据和问答的时间。此外,结合审理工作的各项评估结果,还能借助LLM完成审理报告初稿的自动生成,提高审计工作的效率。

整改阶段

在整改阶段,利用LLM可以对审计报告进行结构化处理获取审计发现的问题,进而根据问题的语义描述实现整改问题和整改力度的分类,自动将问题划分至资金问题、项目问题、管理问题或政策问题等类别和立行立改、阶段性整改、长期整改等力度,由此形成本次审计项目的整改问题清单。接着,收集了被审计对象的审计整改情况后,还可借助LLM实现整改进展的智能跟踪与监测,及时对整改进度不达标的被审计对象提供预警,分析评判整改工作是否实现了审计工作的预期目标。

经过近两年大模型技术的迅猛发展,基于海量书籍、百科、新闻等文本数据训练得到的通用LLM已具备一定的语义理解和文本生成能力,结合检索增强生成技术(RAG)即可较快地搭建出一个知识问答的应用。但是实际使用中我们会发现,对于某个特定的垂直领域,因其自身的专业性和语言表达特性,通用LLM往往难以直接达到理想中的性能。因此为了实现行业更好地赋能,垂直行业大模型的应用也已成为趋势,然而众所周知,数据是任何一项AI技术的研发基础,审计行业数据的保密性特点也使得审计行业大模型的研发似乎一直未有比较大的突破。

如今,LLM这一巨大的风口上,运用审计信息化过程中所积累的数据,通过审计智能化建设,审计领域必将沉淀出更加贴合行业业务特性的大模型,审计人员将人手一个审计大模型,它会成为一个全新的、真正具备颠覆性的审计工作模式。