在人工智能领域,大模型的应用越来越广泛,但如何实现大模型语料合规高效的流通,一直是困扰行业发展的难题。近日,由深圳数据交易所(以下简称深数所)主办的2023中国(深圳)数据要素产业创新大会平行活动“数据要素赋能人工智能产业创新专题活动”上,深数所联合中国信息通信研究院(以下简称“信通院”)、华为云计算科技有限公司(以下简称“华为云”)、深圳数鑫科技有限公司(以下简称“数鑫科技”)等发布可信数据空间助力大模型语料合规高效流通案例,为可信数据空间技术在人工智能领域的实际应用提供了新的思路和方案,可信数据空间支撑可信交付,将成为推动人工智能产业发展的重要力量。
自2023年5月,我国人工智能产业进入高速发展阶段以来,垂直领域语料训练数据、大模型行业应用、模型质量测评等市场需求激增,为推动人工智能产业高质量发展,赋能大模型市场化流通应用,深数所抢抓通用人工智能发展的重大战略机遇,加快聚合“资-供-产-销-用”各领域专业生态主体,通过供需撮合推广、精准商机匹配、动态合规审核、多维产业培训等机制,实现全国首个场内人工智能产品专区、全国首批大模型产品场内挂牌上市、全国首批人工智能产品场内交易签约等8大“全国首创”。
据了解,当前我国数据要素及产品市场化流通仍处初期发展阶段,数据所具备的虚在性、依附性、运动性、边际收益递增性、价值差异性和外部性等一般特性,使得数据在定价、确权、合规流通保障等方面缺乏统一标准,直接导致大模型所需语料训练数据场内交易面临合规流通难、互信难等问题。同时,如何在提升大模型逻辑智能的基础上,丰富大模型语言广泛化的语言理解与表达能力,也是当前各模型市场化应用所面临的难点。
为实现大模型全面化智能提升,依托人工智能全栈式、全链条服务与生态链接能力,2023年9月,深数所联合信通院、华为云、数鑫科技等联合升级可信数据空间创新实验室(以下简称实验室),在人工智能领域,创新打造可信数据空间技术应用于大模型语料安全合规流通新路径,并通过商机精准匹配,高效链接哈尔滨工业大学(深圳)和北京瑞莱智慧科技有限公司供需双方,实现全国首单语言语料数据场内实质闭环案例落地。
大模型训练场景中通常需要大量的语料数据。以往,语料提供方和大模型训练方在数据交易所完成语料交易后,语料提供方通过FTP/FSTP传输或物理拷贝等方式进行数据流通给到大模型训练方。语料数据作为提供方的数据资产,具有高价值、高敏感等特性,大模型训练方通过FTP/FSTP传输或物理拷贝的方式获得数据后,普通技术手段很难确保语料提供方的数据不会出现被转存转售和滥用的情况,即缺乏必要的技术合规保障手段来保障语料提供方的数据权益。
基于语料数据交付过程中面临的现状,深数所积极探索,深入研究提供方样例数据,以及需方的使用场景、用数方式,联合可信数据空间实验室,共同制定针对语料数据流通的技术方案。基于可信数据连接平台FlexiTDL-DPE&DCE,将语料提供方的语料数据和模型训练方的模型、算法数据之间进行可信连接,实现语料提供方和模型训练方之间的数据安全可控的流通使用。于此同时,深数所为进一步保障流通交付方案的可落地,基于方案进行该案例场景下的数据流通测试,测试结果表明使用该方案既满足了数据流通交付,同时也保障了语料提供方的数据权益,充分展示了通过可信数据空间,大模型语料可以在保证数据安全的前提下,实现企业间的可信流通,同时满足数据提供方和消费方的需求。
数鑫科技创始人&CEO吴会才介绍说,通过可信数据空间的技术手段,大模型语料可以更加高效地进行流通,同时可以降低数据获取成本和风险。这种模式可以为人工智能产业的发展提供更加可靠的数据流通支持,提高数据的质量和安全性,推动人工智能技术的进步和应用范围的扩大。
深数所高级大数据研发工程师李榕介绍,可信数据空间技术在数据流通领域中使用分布式、轻量化的部署模式,在保障质量和安全性的前提下,极大的提高了数据流通的效率,覆盖更加全面的数据处理场景,为人工智能行业带来了底层数据的稳健保障。
随着大模型应用的不断深入,可信数据空间创新实验室将继续与合作伙伴共同探索可信数据空间技术的创新和应用,为人工智能产业的发展提供更加优质的服务和支持。未来,随着人工智能技术的不断发展和应用场景的不断扩大,可信数据空间作为一种新型的数据流通基础设施,有望在人工智能领域发挥更加重要的作用,为人工智能赋能千行百业提供稳定安全的支撑。