引导
点击蓝字关注我们

行业快讯与友商动态 2024年第16期:
针对行业大模型建设需求,星环科技从Data Infra进一步延伸到AI Infra,为企业客户打造AI基础设施,打造从语料处理、模型训练、知识库建设等的一整套的工具链,帮助企业快速建立行业大模型,快速使用AIGC。
星环科技推出的知识平台TKH旨在为企业打通从人工智能基础设施建设到大数据、人工智能等研发应用的完整链条,加速人工智能对产业赋能进程。
另外,Dataherald核心Text-to-SQL引擎全面开源!MPP开源数据库Greenplum突然闭源等也是值得关注的消息。
本周焦点
1.星环科技全面战略升级,为企业高效构建AI基础设施
2.星环科技知识平台TKH:引领企业构建高效AI基础设施,加速数智化转型新纪元
大数据
3.全国数据资源调查报告发布:4组数据揭示4大市场机会
4.腾讯云数据仓库 TCHouse-C 自研实时数据更新方案,性能提升超10倍!
5.开源MPP数据库Greenplum突然闭源,已经没办法访问
6.中国时空信息集团有限公司成立,中国移动等三大央企持股!
7.腾讯云ChatBI:开启智能化BI时代的金钥匙
8.帆软推出FineChatBI,面向企业所有业务人员
9.Dataherald核心Text-to-SQL引擎全面开源!
数据库
10.筑牢数据安全防线,瀚高全密态数据库2.0重磅发布!
11.TiDB 8.1 LTS 发版:夯实大型集群的稳定性和易用性,驱动业务融合和降低企业成本
12.达梦数据新股上市,网上申购开启!
数据安全
13.《数据安全治理白皮书6.0》正式发布
14.数据安全专家Immuta宣布为基于RAG的GenAI应用提供多层数据治理和审计
15.全域数据安全管理平台发布
AI
16.《生成式AI安全基本要求》征求意见,涵盖训练数据、生成内容等
17.东方通正式推出大模型中间件TongLMM
18.「清昴智能」完成数千万元Pre-A+轮融资,做懂国产芯片的模型工具链
19.支持中文、开放权重,Cohere最新开源大模型Aya 23
20.Strike Graph推出VerifyAI,为企业提供审计的灵活性和控制权

本周焦点

1.星环科技全面战略升级,为企业高效构建AI基础设施
将大模型融入千行百业,让企业的AI应用从早期直接调用通用大模型,发展到建立自己的AI基础设施,打造行业或特定领域、任务的专用大模型,助力生产力革新和产业升级,已经成为目前企业关注的核心。
星环科技创始人、CEO孙元浩宣布,星环科技的定位从Data Infra进一步延伸到AI Infra,为企业客户打造AI基础设施,打造从语料处理、模型训练、知识库建设等的一整套的工具链,帮助企业快速建立行业大模型,快速使用AIGC。
针对企业的AI Infra建设,星环科技通过自主研发,可以向用户提供一站式企业级大模型生产及应用全流程开发工具链,让大模型快速落地。星环科技拥有从语料到模型再到应用的完整的 AI Infra工具集,覆盖语料开发和管理、大模型训练与持续提升、多模态知识工程、多模知识存储与服务、原生AI应用构建编排和应用服务等重要阶段,提供提示词工程、检索增强、智能体构建等大模型应用快速构建和提升、模型推理优化、模型安全和持续提升技术。
通过星环科技AI Infra工具,企业能够准确、高效地将拥有的多种来源的多模语料转换为高质量的专业领域知识,并且源源不断地支撑专业知识库问答、业财数据分析、智能投研、设备预测性维护等丰富的使用场景和应用,让企业构筑知识壁垒,实现“人工智能+”业务的落地和创新。
星环科技AI Infra工具支持异构算力、语料、知识、大模型应用的统一管理,为数据和语料资产的集约化提供了一站式平台,且具备企业级的组织空间管理能力。
2.星环科技知识平台TKH:引领企业构建高效AI基础设施,加速数智化转型新纪元
星环科技正式发布其最新人工智能基础设施产品——Transwarp Knowledge Hub星环知识平台(以下简称TKH)。该平台旨在为企业打通从人工智能基础设施建设到大数据、人工智能等研发应用的完整链条,加速人工智能对产业赋能进程。
TKH是一款集成了从语料到模型再到应用的完整AI Infra工具集的产品,覆盖了语料开发和管理、大模型训练与持续提升、多模态知识工程、多模知识存储与服务、原生AI应用构建编排和应用服务等重要阶段。它不仅提供了提示词工程、检索增强、智能体构建等大模型应用快速构建和提升的技术,还支持异构算力、语料、知识、大模型应用的统一管理,为数据和语料资产的集约化提供了一站式平台。
星环科技创始人孙元浩表示:“TKH的推出,标志着我们在AI基础设施领域迈出了重要的一步。它不仅能够帮助企业高效地构建和管理自己的知识库,还能通过智能化的方式,提升企业的数据处理能力和业务决策效率。”

大数据

3.全国数据资源调查报告发布:4组数据揭示4大市场机会
全国数据资源调查工作组(国家工业信息安全发展研究中心)在“数字中国”峰会上发布了《全国数据资源调查报告》。报告中的4组数据揭示了我国数字经济发展过程中的4大市场机会。
数据生产量达32ZB,表明我国数据要素市场总体规模庞大。2023年我国数据生产量32.85ZB,相当于1200多万个国家图书馆,数据资源规模总量位居世界前列。近年来,我国信息化、数字化进程明显加快,各种数据采集终端和智能传感装置在各行各业普及应用。
数据存储量为1.7ZB,表明我国数据存储产业发展潜力巨大。2023年我国数据存储规模为1.73ZB,其中新增数据存储规模为0.95ZB,占全年数据32ZB生产总量的2.9%,海量数据在源头就放弃。
数据使用占比为4成,表明我国数据资源开发利用将得到更快发展。在2023年的全国存储数据总量中,一年未使用的数据占比约为4成,这说明不少数据被存储后不再被读取和复用。
我国智能算力占比约为30%,表明智能算力将成为今后发展重点。截止到2023年底,全国共有2229个算力中心,算力规模约为230EFLOPS,同比增长约为30%。其中,智能算力占比约为30%。
4.腾讯云数据仓库 TCHouse-C 自研实时数据更新方案,性能提升超10倍!
社区版 ClickHouse 不支持唯一索引,通常使用 ReplacingMergeTree 或者 CollapsingMergeTree 等表引擎进行数据的去重和更新操作,针对新写入数据通过后台异步任务合并 Part 或者查询时实时合并 Part 来实现精确去重。但是,这种数据聚合方式的实时性和查询性能不佳,难以满足业务场景。
若使用 ALTER UPDATE/DELETE 等实时更新删除语句,则需要重写存量 Part 数据,造成计算资源的大量消耗和耗时增长,无法保证数据更新删除的实时性。
腾讯云数据仓库 TCHouse-C 是腾讯云提供的全托管 ClickHouse 服务。针对这一问题,腾讯云数据仓库 TCHouse-C 全新推出了一种高性能实时数据更新方案,旨在满足高频数据实时去重及轻量级部分列更新场景的需求。
经过上述多维度对比测试,可以看出相比社区版 ClickHouse, 腾讯云 TCHouse-C提出的基于支持 Upsert 的 MergeTree 表的实时数据更新方案性能更优:
·大批量数据导入性能相比 ReplacingMergeTree 提升100%,相比普通MergeTree写入性能劣化在50%以内。
·并发更新和删除数据,性能差距显著,32并发场景下性能提升达到10倍以上。
·在精确去重时查询性能优于ReplacingMergeTree。
·高并发更新删除场景下,大幅优化了社区版 Mutation 任务繁重的问题,实时性显著提升。
5.开源MPP数据库Greenplum突然闭源,已经没办法访问
著名开源MPP数据库Greenplum自被博通收购起,继多次大规模裁员之后,疑似再出大事件,原公开github仓库突然无法访问!
如果Greenplum永久闭源,那么这将是一件非常有影响力的事情了。国内很多开源数据库,包括著名的某遥遥领先的某数学家数据库,很大程度上,都可以理解成为是Greenplum的某个版本魔改的结果。
所以,Greenplum数据库确实是很有影响力的。Greenplum公司成立于2003年,也是我开始读PhD的时候。2006年它们推出了基于PostgreSQL研发的MPP数据库,主要支持数据仓库业务,用来作为Teradata的廉价平替。
6.中国时空信息集团有限公司成立,中国移动等三大央企持股!
中国时空信息集团有限公司在雄安新区注册成立,注册资本40亿元。中国时空信息集团有限公司的成立,是中国在时空信息领域布局的重要一步。通过整合优势资源,协同创新,中国时空信息集团有望在全球竞争中占据有利地位,推动我国时空信息产业的快速发展。
从业务范围来看,公司主要包含了卫星导航服务、卫星通信服务、地理遥感信息服务等。
该公司的股东包括三大央企。其中,中国卫星网络集团有限公司持股55%,中国兵器工业集团有限公司持股25%,中国移动通信集团有限公司持股20%。
7.腾讯云ChatBI:开启智能化BI时代的金钥匙
基于大模型的AI+BI融合成为全球BI厂商的一致方向。作为具备全球领先的大数据技术能力与实践的厂商,腾讯云是最早探索AI+BI融合的代表。近日,随着基于混元大模型的ChatBI预发布,腾讯云为广大企业开启了数据消费的一扇新大门。
腾讯云ChatB拥有四大产品特性:
其一、通过对自然语言理解,实现对话即分析和数据实时可视化。例如,ChatBI具备智能追问能力,当用户提问太模糊时,ChatBI能够智能追问和澄清意图,最终理解用户的分析需求。
其二、具备秒出分析结论的能力,并可以通过结论生成可视化图表。
其三、丰富的自主配置与接入能力,可以配置知识库、数据源、示例问题等。例如,添加“知识库”让大模型听得懂行业“黑话”,提升问答的准确率,成为领域专家;配置“示例问题”,灵活支持各种业务场景;灵活调整“数据表”,自主可控接入模型的数据。
其四、移动端、PC端等多端支持、互通与适配,让用户随时随地进行数据分析。例如,腾讯云ChatBI小程序版本也即将发布。
据悉,腾讯云ChatBI将在今年6月份正式官网上线。
8.帆软推出FineChatBI,面向企业所有业务人员
帆软带着全新的“FineChatBI”重回对话式BI市场。在帆软的定位中,FineChatBI是一款“对话式业务分析工具”,而非“数据分析工具”。因为数据分析工具意味着它的最终用户依旧是企业小部分的数据分析人员,而业务分析工具则直接扩大到企业所有业务人员。
FineChatBI的最大区别就是利用了大模型的泛化能力。它能够在通用场景下理解用户所提出的业务问题,并拆解成对应的数据问题,从而跨过了此前业务人员无法提出正确问题的门槛。
FineChatBI在技术上利用Text2DSL把对话式查数这件事做到极致,技术上采用完全可控的方式取到可信的数据;同时利用大模型内嵌的hypothesis testing等统计学知识和分析思路生成能力,补齐业务人员认知和能力上的差距,实现对话式的业务分析,让业务人员能够真正用起来。FineChatBI还能够对业务指标进行预测,并生成相应的数据报告。
9.Dataherald核心Text-to-SQL引擎全面开源!
Dataherald 公司近日将其核心产品——自然语言到 SQL 引擎——开源,引发业界关注。这一举动为开发者和企业提供了构建、集成和扩展 Text-to-SQL 应用的全新机会。
Dataherald 的开源引擎旨在解决现实世界数据分析中,使用大型语言模型(LLM)将自然语言转换为 SQL 时面临的挑战。
为了解决这些难题,Dataherald打造了一套强大的NL-to-SQL引擎,其核心是一个基于LLM的智能代理,它利用思维链(CoT)推理和多种工具,从用户提问中生成高精度的SQL查询。

数据库

10.筑牢数据安全防线,瀚高全密态数据库2.0重磅发布!
瀚高发布“瀚高全密态数据库2.0”,展现出其卓越的数据安全保障能力。与传统数据库或隐私计算平台不同的是,瀚高全密态数据库实现了‘存算合一’,即数据在存储时已经处于加密状态,而计算分析直接在加密的数据上进行,无需解密为明文状态,大大减少了数据被泄露的风险,做到数据‘可用不可见’,极大程度提高了数据的安全性,还兼顾了数据的可用性和易用性。
该产品可为政务数据共享、金融风控、医疗健康等数据高敏感型场景提供全方位数据安全保护,应用前景广阔。
除此之外,瀚高全密态数据库重点围绕密码、安全和基础设施三大方向开展一系列关键创新。以同态加密、多方安全计算、后量子密码等技术创新为引领,发展密码应用新模式;构建软硬件一体化的计算安全新体系,服务云计算等多样化场景;打造高安全、可信赖、集约高效的数字经济基础设施,助力产业数字化转型纵深发展。
11.TiDB 8.1 LTS 发版:夯实大型集群的稳定性和易用性,驱动业务融合和降低企业成本
TiDB 8.1 LTS 正式发布。当下,成本效益成为企业在数据库架构选择时的关键因素。随着企业趋向于将数据从分散的数据库实例合并到大型集群中,对数据库的性能、稳定性和运维便利性提出了更高的要求。
TiDB 8.1 LTS 的发布,正是为了满足这一需求,它通过一系列创新功能,增强了大型集群的稳定性和运维能力,尤其针对应用多租户功能和 SaaS 类型用户场景做了稳定性和性能的多方面增强。
作为 2024 年发布的第一个长期支持版本 (LTS),TiDB 8.1 着眼于提升大型集群的稳定性和运维能力。新版本中,TiDB 在可扩展性与性能、稳定性与高可用性以及可观测性等方面获得了持续的提升。TiDB 8.1 LTS 包含了已发布的 7.6.0-DMR 和 8.0.0-DMR 版本中的新功能、提升改进和错误修复。TiDB 8.x 开始着手一些复杂的架构改进,旨在进一步提升大型集群性能和稳定性,这些工作无法在一个 LTS 周期完成,因此我们在 v8.1 中看到了许多实验特性。同时,上一个 LTS 发布的大部分实验特性都已转为正式功能。
12.达梦数据新股上市,网上申购开启!
5月31日,达梦数据新股上市,网上申购开启!发行价86.96元/股,申购上限0.45万股。
此次首发上市,达梦数据拟募资23.51亿元。其中,3.52亿元用于集群数据库管理系统升级项目,3.43亿元用于高性能分布式关系数据库管理系统升级项目,2.53亿元用于新一代云数据库产品建设项目,8.00亿元用于达梦中国数据库产业基地,6.03亿元用于达梦研究院建设项目。

数据安全

13.《数据安全治理白皮书6.0》正式发布
中国网络空间安全协会、中国计算机学会计算机安全专业委员会等共同编撰的《数据安全治理白皮书6.0》正式发布。
《数据安全治理白皮书6.0》力图从梳理国家数据发展战略、分析数据安全风险态势、解读我国数据安全制度与政策标准、完善数据安全治理体系框架、介绍数据安全防护技术、提出未来治理展望及倡议等多个维度深入探索数据安全治理之道,以期帮助有关单位解决在开展数据安全治理工作时面临的众多困惑和难题,推进实现数据开发利用与安全防护一体两翼、平衡发展的目标。
14.数据安全专家Immuta宣布为基于RAG的GenAI应用提供多层数据治理和审计
数据安全专家Immuta宣布,跨多个云平台的基于检索增强生成(RAG)的GenAI解决方案将提供新的数据治理和审计功能。在此版本中,Immuta 率先推出多层架构,用于保护、监控和审计基于 RAG 的 AI 应用程序访问的敏感数据。
借助 Immuta GenAI 解决方案,数据团队可以:
·在构建 RAG 索引时,使用多层策略控制对存储层的访问,以保护敏感数据。
·通过对行级数据和 RAG 索引进行基于主题的分类,维护 RAG 索引的高度准确和精细的元数据清单,Immuta 将其视为其他数据源。
·控制对基于 RAG 的应用程序的访问,在数据层强制执行,通过自然语言策略创建、提示/查询时策略实施、Snowflake 和 Databricks 的多平台 RAG 支持以及特定于域的 RAG 策略,使数据平台团队能够进行控制。
·使用操作监视器监视和审核 RAG 索引访问,这些监视器提供 RAG 操作的连续视图,以及跨所有受支持平台的 AI 应用程序数据访问的单一视图。(www.prnewswire.com)
15.全域数据安全管理平台发布
智信安安全技术有限公司的全域数据安全管理平台重磅发布!全域数据安全运营管理平台,针对数据流动,利用人、物、网、数、事的解决方案思想,重点解决了全域数据资产管理、全域涉数人员分析、全域事件识别、全域数据流转监测、全域跨网数据管理的问题。
通过对以上要素的相互关联和知识抽取,构建了用户专属的知识图谱,增强了业务的可见性和可交互性,经过数据的不断沉淀和人工反馈的强化学习,帮用户训练一个懂用户业务的智能化管理助手(AI agent)。
AI agent可以自动化的进行安全监测和合规性管理,最终来提升数据的管理能力,降低运维成本,减少安全风险。在上述要素中,全行为是最关键也是最难的一个。全行为的难点在于需要从网络传输的海量数据中识别出哪些是设备或人员的操作行为,并能将这些行为去伪存真 ,使用用户看得懂的业务语言描述;还要能在这些行为中进一步分析哪些是异常行为。整个过程需要对网络、应用协议和用户的业务非常了解,需要大量人工进行分析研判。根据智能化程度,云智信安参照自动驾驶的定义,给出了用户行为智能分析的L0-L5级别的标注。

AI

16.《生成式AI安全基本要求》征求意见,涵盖训练数据、生成内容等
全国网络安全标准化技术委员会发布国家标准《网络安全技术 生成式人工智能服务安全基本要求》征求意见稿。
该意见稿一共分为《网络安全技术 生成式人工智能服务安全基本要求-标准文本》、意见汇总处理表和编制说明三大块。
其中,标准文本涵盖训练数据安全要求、模型安全要求等,主要是为了加强生成式人工智能的开发、应用落地的安全性。可以在2024年7月22日前反馈给国家网安标委秘书处。
2023年7月,国家网信办等七部门发布了《生成式人工智能服务管理暂行办法》,从政策法规层面为我国生成式人工智能健康发展保驾护航,为有序开展相关管理工作明确了方向。
而本次发布的标准要求是对《办法》中的安全要求进行细化,规定了生成式人工智能服务在安全方面的基本要求,针对当前生成式人工智能服务研发过程中的网络安全、数据安全、个人信息保护,以及面向服务过程中的应用场景安全风险、软硬件环境安全风险、生成内容安全风险、权益保障安全风险等方面,提出细化安全要求。
17.东方通正式推出大模型中间件TongLMM
东方通受邀出席会议,正式推出并展示了大模型相关创新成果——大模型中间件TongLMM。
大模型中间件TongLMM延续了传统中间件层的基础支撑优势,能够在AI系统架构下,利用向量数据库给大模型增加外部知识库,同时在中文嵌入(Embedding)方面做优化处理,针对应用开发,TongLMM能够提供大模型应用编排功能,包括大模型应用开发、运维一体化服务,为企业客户提供大模型专属能力。
另外,TongLMM支持私有化模型方式部署,作为应用与大模型之间的桥梁,TongLMM融入消息中间件、缓存中间件、数据交换、自然语言处理等现有组件,能解决大模型落地过程中数据集成、应用集成、知识库与大模型融合、数据不精准、安全隐患等问题。
TongLMM既拥有东方通中间件的技术优势,大幅降低企业开发大模型应用门槛,同时将深厚的客户应用支持、上线部署等实践经验融入产品,具有强大的客户业务场景理解力与洞察力,在应用模板、应用管理模式等更贴合业务需求,让用户更安全、更敏捷、更精准、低成本开发出自己的大模型应用,快速应用到现有业务中,并实现高效的全流程管理。
18.「清昴智能」完成数千万元Pre-A+轮融资,做懂国产芯片的模型工具链
AI推理部署解决方案厂商「清昴智能」近日完成了数千万元Pre-A+轮融资,达晨财智、启赋资本领投,老股东奇绩创坛跟投。此前,清昴智能已获得某世界500强科技巨头公司的千万元战略投资,资金将主要用于人才梯队组建,产品研发和市场落地。
作为推理部署工具链最早的国内玩家之一,清昴智能成立于2022年10月,通过提供AI模型的推理和部署优化工具链,从而降低下游客户模型的部署和使用成本和门槛。
早在2022年6月,在Stable Diffusion等AIGC模型爆发的风口,清昴智能团队就开始着手布局模型部署和推理优化工具链的研发。针对AIoT(AI物联网)、自动驾驶等智慧场景,清昴智能推出了第一代AI模型推理优化工具链MLGuider。除英伟达之外,MLGuider还支持AMD、高通、昇腾等国内外芯片的部署。
清昴智能联合模型优化、分布式优化和编译优化等优化技术栈,打造了面向基础模型和底层算力硬件的全链路工具链,着重对大模型和底层AI芯片,尤其是国产芯片的适配优化进行了功能迭代。
19.支持中文、开放权重,Cohere最新开源大模型Aya 23
知名开源大模型厂商Cohere开源了新一代大模型——Aya 23。据悉,Aya 23共有80亿和350亿两种参数,支持阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语等23种语言,可生成文本、代码、总结内容等。
目前,Cohere已经全面开放了Aya 23的权重,在遵守CC-BY-NC、C4AI的策略下可以商业化。
20.Strike Graph推出VerifyAI,为企业提供审计的灵活性和控制权
Strike Graph推出VerifyAI,一种用于智能测试的创新AI 技术,超越了基本的安全控制自动化,可以了解您业务的细微差别。
VerifyAI提供有关持续合规性的实时反馈,让客户知道所有证据都已得到验证,从而高枕无忧。这有助于避免审计报告中代价高昂的错误和异常。所有这些都是在不依赖第三方AI网络的情况下完成的,可能会带来安全风险。
Strike Graph的VerifyAI提供:
·定制的灵活性:通过与其合规性计划相关的测试证据来适应客户独特的业务环境。
·实时反馈:提供有关证据收集的明确说明,并在提交错误信息时发出警报。
·持续合规性监控:检查客户证据的变化,以确保持续的控制有效性。
·审核前烟雾测试:在下次审核之前审查证据并确定需要审查的领域。(www.helpnetsecurity.com)

识别图中二维码
关注我们
END




