并非虚火但需要“调教”,大模型下的数据融通,上海数商有这些创新实践……

上观新闻资讯号

2023/07/09 07:25

并非虚火但需要“调教”,大模型下的数据融通,上海数商有这些创新实践……

打开APP,查看更多精彩图片

刘彦的母亲是一位脑神经科学家,受到启发,刘彦和好友沈鑫创办数库科技时,认定要凭借AI等技术,将产业链数据变为神经元,织成网络,实现彼此串联与传导。唯此,国内外海量企业间错综复杂的关联、运行规律及潜在风险才能被敏锐洞察,给予银行、政府等部门一双“慧眼”。

数字经济是上海四大新赛道之一,人工智能是上海三大先导产业之一。当数字与AI结合,诞生的当然远不止数库科技,还有大量数据产品交付商、数据安全捍卫者、数据资产评估商等。在2023世界人工智能大会上,多个有关AI与数据融通的论坛上,记者看到,在算法、区块链技术及现下最火的大模型加持下,上海首提的数商生态正日益繁荣。

大模型能解析产业链

“数库科技的强项,就是借助自研框架与算法,将海量非结构化、粗颗粒的产业数据,变为高精度的‘乐高’标准件,由点、成线、及面。” 刘彦在数据智能论坛上分享。

但这并不容易。权威的全球行业分类系统GICS,也不过将产业分为4个层次,若以此标注产业链数据,未免太“粗犷”了。其次,以深圳宝安集团为例,该集团涉及高新技术、房地产、生物医药多个领域,若只打一个行业标签,显然不科学。另一个常见现象是,各企业可能在做同一件事,但它们公开披露的业务名称却未必一致。

不过上海的数据科技企业,就愿意挑战这些难题。通过将行业层级逐级下探到最深12层,并将各类非结构化数据对齐调精,数库科技打造了一家“自动化数据生产工厂”,实现了对A股、港股、美股、发债企业等近4万家头部公司公开披露产品的标准化,并将全国近6000万家工商企业与产业链图谱打通。

图谱并非一张“死图”。由于数据标签很“细腻”,产业链节点间的“蝴蝶效应”便会被迅速捕捉——两家表面看来毫无关联的公司,却被图谱提示,在它们上游,有着同一家原料供应商,或者股东间有千丝万缕的纠葛。产业链上某个节点的动态、利好乃至风险,都可能传导各方。这样的图谱,被刘彦称为SAM(Segment Analysis & Mapping)产业链数据体系,其典型应用场景之一在于量化投资,可使投资机构年化收益至少提升5%。

SAM还在向UPG(Universal Product Graph)升级,进一步叠加工艺流程、生产环节、材质、设备等各类关系,数据维度更丰富,从而将实体产业刻画得更精细。此时,大语言模型成为功臣,“它可以帮助我们解析那些原先纯靠人来处理、且表述形式极为丰富的文本语料,如研报、行业报告等。”刘彦说。

这个被大模型驱动的UPG,有望更切中客户所需。数库科技创始人兼总裁沈鑫告诉记者,“它可为地方政府提供更有针对性的产业规划,迅速找到茫茫企业群中‘最靓的仔’,为地方经济强链补链。又或者,可提示政府及时发现潜力企业,有针对性地招商安商稳商、做好上市培育。”

数商“调教”了大模型

种种迹象表明,大模型并非虚火,它切切实实在赋能产业。这背后,上海数据科技企业不懈创新,旨在将大模型从通用领域的“实习生”,“调教”为金融、能源、交通等专业领域的高级顾问。

如星环科技,在今年世界人工智能大会上亮相了金融领域大模型“无涯”,以及大数据分析大模型“求索”。创始人孙元浩介绍,大模型有时会一本正经胡说八道,原因之一,在于训练大模型用时至少半年,这导致实时新闻资讯、市场行情等快速变化的信息难以内置到模型中。但星环科技用向量(指具有大小和方向的量)数据库来承担存储最新信息的中间角色,已成功解决大模型“幻觉”问题。在金融量化领域,“无涯”可回答研报分析,能对个股、债券、基金等各类市场事件进行复盘和推演。“求索”大模型同理,数据工程师可用自然语言按需查询数据,使每个人都能拥有自己的虚拟业务助手。

大模型能否出色表现,优质语料也是关键。在7月8日举行的“大模型时代下的数据要素流通”主题论坛上,上海数据交易所总经理汤奇峰坦言,现有许多语料质量不尽理想,影响了大模型的发挥,“但同时,有些企业具有海量高质量数据资源,开放意愿度也很高,只是需要社会第三方企业帮助组织相关的大模型训练。”

汤奇峰表示,上海数交所有志于以市场配置的方式组织数据要素,推动语料库建设。他透露,上海数交所已于7月7日正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、医疗等领域。

区块链助数据可信流转

另外,数据作为新时代的“石油”,可信是流转的核心。这在7月8日区块链高峰论坛上成为热议。

论坛上,市北高新集团的区块链生态谷呈现了其生动实践。以分布式记账为特征的区块链,被视作数字经济时代的信任基础设施。目前,区块链生态谷内已集聚70家区块链企业,在中药代煎服务、工业供应链等领域已形成应用。

去年世界人工智能大会上,市北高新集团和蚂蚁链共同为“上海蚂蚁链产业开发创新中心”揭牌,标志着依托蚂蚁链的产业资源开始汇入区块链生态谷。入驻迄今不足一年,“蚂蚁”生态已引来16家初创企业,形成了更丰富的生态集群,促成食品溯源、游戏、存证货运保险等区块链新方案落地。其中,上海魔橙科技依托蚂蚁链底层技术锻造其产品能力,实现迅速成长,服务场景超过50个。

魔橙科技创始人陈敏涛告诉记者,魔橙服务了去年一款国产热销车型,帮助车企搭建CRM(客户关系管理)可信共享平台,用区块链技术来解决长期以来各数据持有方不愿“坦诚相见”的痛点。他举例,一辆新能源智能网联车,其智能座舱中的各类小程序、App多达数十个。比如充电相关应用使用高频,一些大型商超与充电桩之间还有积分互认、联合营销等合作,其中涉及碳足迹清结算、车主权益兑现等。然而在过去,谁都不愿交出数据,怎么办?魔橙的区块链产品就成为一个不偏不倚的第三方,“数据在不改变所有权的基础上实现共享,我们只帮助产生数据计算的结果,但任何一方数据都‘不出域’,此举大大激活了车生态的数据潜能。”陈敏涛说。

记者从论坛上获悉,目前上海区块链综合指数位列全国第二,全国具有投入产出的区块链企业近1400家中,上海约占1/4。

展开全文
文章关键词
#上海 #区块链 #人工智能

大家都在聊

热门评论

相关推荐

热门视频

查看更多视频

热点搜索

打开APP 追踪24小时热点新闻
打开APP 追踪24小时热点新闻