中国首个开源多模态预训练语料“书生·万卷” 发布


【资料图】

上海人工智能实验室于昨日宣布,联合中国大模型语料数据联盟成员单位,共同开源发布“书生·万卷” 1.0多模态预训练语料。目前分为文本数据集、图文数据集、视频数据集三部分,开源的数据总量超过2TB,包含超过5亿个文本,2200万个图文交错文档,1000个节目影像视频,覆盖科技、文学、媒体、教育、法律等领域。

据了解,中国大模型语料数据联盟是由上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团、上海数据集团、上海市数商协会、金杜律师事务所等单位联合发起成立的开放组织。

根据中研普华研究院撰写的《2023-2028年中国开源软件行业市场前瞻分析与投资战略分析报告》显示:

开源软件行业市场前瞻分析与投资

随着科技不断创新发展,开源技术的重要价值日渐凸显,成为企业数字化转型发展的关键,开源软件产业初具规模,且具有非常大的发展空间和潜力。按 OSI 官网上的说法,“Meta 对 LLaMa 模型和代码的许可,对某些用户的商业用途施加了限制,并且还限制将模型和软件用于某些目的。其许可证不在开源类别中。”

开源者的动机有两种,一种是纯属 Hacker 行为的 Linux,另一种是大公司的商业行为,比如 Google 的 TensorFlow。Meta 从宣传上把自己伪装成后一种。但不管怎么说,从开源的官方严谨定义讲,没有用开源许可证的,不是开源。

大数据一战中失败的 Google,面对这一次的容器之战,迅速出击,在发完论文抢占技术影响力后,为进一步抢占开发者市场,也决定发布产品,也就是 Google 内部相对成熟的容器编排调度框架,Borg。Borg 一直在内部被视作最强大的“秘密武器”,只是设计之初,也是为了内部使用需要,跟很多系统搅在一起,没办法直接开源。于是,Google 用 Go 语言迅速重构了 Borg,2014 年,Kubernetes 发布。

国内开源开发者参与开源的方式多种多样,大多数开源开发者通过多重方式参与开源。其中,使用开源项目的开发者占比达71.7%;超半数的开源开发者参与了社区代码贡献,占比达52.9%;开发者参与文档撰写的比例也达到29.2%。

值得注意的是,开源开发者参与社区活动、社区运营、项目传播等开源文化活动的比例有了显著增加,分别达到36.6%、13.2%和10.5%;同时,开源项目、产品和文化布道师职业逐渐兴起,国内参与开源布道的开发者群体不断壮大,占比达14.2%。

如今开源软件在中国具有可观的市场发展潜力,“十四五”规划对开源软件的大力支持为行业未来发展打下了坚实的政策基础,同时,中国开源贡献者规模快速增长,增速全球第一,数量位居全球第二,而这也成为了中国企业软件超车的关键一环和核心利器。

操作系统是数字基础设施的底座,要实现高水平自立自强,具备根技术的操作系统及其生态突破是必须攻克的关键一环。与此同时,开源模式已成为全球软件技术和产业创新的主导模式,覆盖软件开发的全域场景,全球97%的软件开发者和99%的企业使用开源软件。

据悉,开源鸿蒙欧拉生态正在蓬勃发展。目前,开源鸿蒙项目已有51家共建单位,超过5100位代码共建者,产出近亿行代码,在教育、交通、金融、家居、安防等多个行业已有220余款软硬件产品通过兼容性测评,开源鸿蒙操作系统装机量已超3亿台。

工信部数据显示,开源欧拉操作系统累计装机量已突破430万套,为130个国家和地区用户提供服务,开源生态蓬勃发展,共建成员单位超980家,IPv6的活跃用户数达到7.67亿,移动网络中的IPv6流量占比超过一半。

深圳打造开源操作系统产业高地

深圳市工业和信息化局印发《深圳市推动开源鸿蒙欧拉产业创新发展行动计划(2023—2025年)》。深圳市瞄准最高最优最强,通过培育和吸引更多企业、更多人才、更多产业组织集聚深圳发展开源鸿蒙欧拉产业,力争率先将深圳建成为核心技术领先、产业高度集聚、应用场景丰富、生态支撑完备、全球辐射引领的开源鸿蒙欧拉产业高地。

从深圳市工信局获悉,开源鸿蒙是智能终端操作系统,开源欧拉是服务器操作系统。2022年9月,深圳市政府印发《深圳市推动软件产业高质量发展的若干措施》。提出加快开源软件推广应用,支持相关商业发行版公司在深发展;鼓励企业开发生产相关智能终端产品;支持企业采购相关软件和终端产品。

近年来,深圳市大力推动智慧城市和数字政府建设,加速各行各业数字化转型,为开源鸿蒙提供了丰富的智能化全场景。深圳市工信局介绍,深圳市发展开源鸿蒙欧拉产业具有深厚基础和独特优势。目的是推动开源鸿蒙欧拉产业创新发展,助力关键核心技术高水平自立自强,主动拥抱新的技术与产业升级机遇,加快构建现代化产业体系。

《2023-2028年中国开源软件行业市场前瞻分析与投资战略分析报告》对中国开源软件行业的发展现状、竞争格局及市场供需形势进行了具体分析,并从行业的政策环境、经济环境、社会环境及技术环境等方面分析行业面临的机遇及挑战。还重点分析了重点企业的经营现状及发展格局,并对未来几年行业的发展趋向进行了专业的预判。

本报告同时揭示了开源软件市场潜在需求与潜在机会,为战略投资者选择恰当的投资时机和公司领导层做战略规划提供准确的市场情报信息及科学的决策依据,同时对政府部门也具有极大的参考价值。

未来,开源软件行业发展前景如何?想了解关于更多行业专业分析,请点击《2023-2028年中国开源软件行业市场前瞻分析与投资战略分析报告》。

推荐内容