近日,国际权威IT研究咨询机构Gartner发布《Hype Cycle for Data, Analytics and AI in China, 2023》报告。安恒信息作为数据安全领域的领军企业之一,致力于数据分类分级,连续两年被Gartner报告列为“数据分类分级领域”领跑厂商。


【资料图】

数据分类分级的必要性

据IBM《2022 年数据泄露成本报告》揭示,全球平均单一事件数据泄露成本高达435万美元,数据安全问题已经严重制约业务数字化转型的进程。而通过对数据开展分类分级,将分类分级后的结果应用于数据全生命周期安全防护,我们可以有效保障数字安全,满足业务数字化转型的安全需要。

Gartner报告指出,数据分类分级有助于高效地对数据进行分级治理,在涉及价值、访问、隐私、存储、道德、质量和保留的数据安全项目中起到了重要的作用。中国的数据安全监管要求使数据分类分级成为安全、数据治理和合规计划中至关重要的一步。数据分类分级有助于组织区分数据的敏感性,并提高数据保护控制的有效性。

AI让数据分类分级更简单

面对各行各业的客户,根据各自体量大小,其不同业务系统的总字段数,少则上万个,多则几十万上百万个。人工梳理的效率为平均1000字段/天左右,如果客户总字段数以10W来计算,大约需要100人天才能做完。面对这耗时耗力的分类分级工作,如何才能提升效率呢?经过上百个项目实施的探索,我们给出的答案是,将AI人工智能整合进分类分级的工作中。安恒信息AiSort数据分类分级产品主打“AI让数据分类分级更简单”,内置了NLP、聚类、强化学习等AI模型。通过对数据的分级分类,可更清晰地了解敏感数据的分布情况,更有针对性地建立覆盖数据全生命周期的安全防护。

灵活的NLP模型

背景:相同行业的数据有80%左右的重合度。

特性:高重合度的特性体现在字段内容、字段名称和字段注释等多个维度上。针对不同行业的数据特性,结合项目实践通过迁移学习将预训练模型做到行业适配,训练不同行业(如政府、金融、运营商、教育和医疗等)的NLP模型并内置到产品中,提升首次机器分类分级效果。

高效的聚类模型

背景:同一系统中70%的字段都能找和其重复或者相似的字段。

特性:采用无监督的聚类算法,将相似字段/表聚合在一起实现信息整合;在梳理向导功能的辅助下,用户仅需修改其中一项的分类分级信息,即可批量自动覆盖其他相似字段/表的结果,提升人工梳理效率。聚类算法在AiSort的版本迭代中持续优化,聚焦于提供更具实际业务描述能力的信息整合手段,让梳理人员在尽可能短的时间内准确判断当前字段的实际分类和实际分级。

可反馈的强化学习模型

背景:分类分级不是一次性的动作,在实践中往往需要利用机器进行反复学习重新打标。

特性:针对新行业新客户及其业务系统,可仅对一部分数据进行分类分级梳理,就能训练出适用该客户的模型。然后可使用该模型对剩余数据进行分类分级。在模型预测分类分级标签过程中,人可以参与对结果核验及纠正(对多个模型版本进行奖惩),快速提升模型效果。

数字化是未来产业发展的关键,数据要素是数字经济深入发展的核心引擎。安恒信息将依托自身在数据安全方面的多年经验,大力推进数据分类分级的探索与实践,以期让数据要素充分自由流通,发挥数据价值,促进数字经济发展,为建设数字中国提供优质服务。

参考文献:

Gartner, Hype Cycle for Data, Analytics and AI in China, 2023,Julian Sun, Ben Yan, Xingyu Gu, Fay Fei, Mike Fang, Tong Zhang,Published 17 July 2023

免责声明:Gartner未在其报告中支持任何厂商、产品或服务,也并不建议技术用户只选择有最高评分或其它特征的厂商。Gartner研究出版物代表的是Gartner研究机构的意见,不应解释为对事实的陈述。Gartner对与本研究有关的所有明示或暗示的保证概不负责,包括对适销性或特定用途的适用性的任何保证。

推荐内容