暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

阿里云正式发布Qwen2.5系列开源模型;DeepMind提出SCoRe方法,让AI模型自主学习修正错误

126

点击蓝字

关注我


NEWS

本周焦点(行业快讯与友商动态 2024年第 30 期

1、星环科技斩获鲲鹏应用创新大赛2024上海赛区一等奖

2、阿里云正式发布Qwen2.5系列开源模型

3、可灵AI推出全新1.5版本,更稳更高清

4、DeepMind提出SCoRe方法,让AI模型自主学习修正错误

5、华为云发布AI-Native云基础设施CloudMatrix

6、高通可能收购英特尔:行业或将面临重大洗牌

7、Percona宣布推出开源云原生的DBaaS平台


今日 · 看点


星环科技斩获鲲鹏应用创新大赛2024上海赛区一等奖


星环科技基于多模统一架构的湖仓集一体方案打破了传统数据湖和数据仓库的界限,实现了数据存储和计算的统一。摒弃了传统的Hadoop+MPP混合架构,真正实现了湖仓集技术架构的统一,支持一份数据满足数据湖海量汇集、复杂数仓模型加工、高性能集市分析、实时数据处理、高并发数据检索等多种应用场景。湖仓集从此仅仅是业务上的逻辑区分,企业数据可以在一个数据库内统一存储管理使用,无需跨平台搬迁数据。


结合星环科技多模统一架构的核心优势,能够支持关系型、宽表、时序、地理空间、搜索、图、向量等11种主流数据模型统一存储管理。企业用户可以基于统一权限管理下灵活高效访问各种数据,既可作为Data Infra满足传统数据服务,亦可作为AI Infra的知识管理平台满足AI大模型对多模态知识的供给需求,大大提升了数据访问便利性,提高了数据价值,降低了整体平台成本。


星环大数据平台与鲲鹏生态深度融合,让企业数据处理更加高效,可为行业提供性能更优异且更安全的产品和解决方案。基于鲲鹏原生开发及DevKit打造核心软件鲲鹏版本开发流水线,通过1套代码、1条流水线、多平台版本可实现更高的开发流程和开发效率。基于鲲鹏DevKit的深度优化,有利于大幅提升整个平台的开发效率和应用性能。鲲鹏DevKit@星环搜索引擎Scope 流水线任务使得开发效率提升30%、应用性能提升20%。


早在2019年,星环科技与鲲鹏就开始展开全面合作,2020年获得鲲鹏COMPATIBLE认证,2021年获得鲲鹏VALIDATED认证。目前星环科技大数据基础平台TDH中的搜索引擎Scope、关系型分析引擎Inceptor、图数据库StellarDB、宽表数据库Hyperbase,以及分布式分析型数据ArgoDB五款产品已获得NATIVE鲲鹏原生开发认证。


大模型资讯

 

阿里云正式发布Qwen2.5系列开源模型


OpenAI 即将在秋季推出一款名为草莓的新型 AI 模型,预计将极大提升 AI 在解决复杂数学和编程问题上的能力。该模型不仅能处理技术问题,还能在给定更多思考时间的情况下,回答更主观的业务策略问题。


草莓模型的开发对 AI 行业意义重大,它将推动智能体在多步骤任务处理上的应用,并可能为 OpenAI 带来新的收入渠道。草莓模型的推出,是 OpenAI 在 AI 推理能力方面的重要进步,将对现有 GPT-4 模型进行改进,并为未来的 Orion 模型提供支持。


随着草莓模型的即将推出,我们期待看到 AI 推理能力的新突破,以及这一进步如何影响 AI 行业的未来。同时,我们也将关注草莓模型在 AI 安全性和伦理方面的考量,以及它如何为社会带来更广泛的应用。


可灵AI推出全新1.5版本,更稳更高清


可灵AI——快手旗下的视频生成大模型,它在短时间内迅速迭代升级。在本周,推出了最新的1.5版本!1.5版本在图像质量、美学表现、运动合理性以及语义理解方面都有显著提升。新版本支持更高的视频分辨率,达到1080p。同时引入了“运动笔刷”功能,这极大的增强了视频编辑能力。


自今年6月发布以来,可灵AI已经进行了9次迭代和升级,反映其在视频生成领域的激烈竞争中不断进步。它能够根据用户提供的简单文字描述,就能轻松生成高质量的视频内容,甚至可以从静态图像中生成动态视频。


DeepMind提出SCoRe方法,让AI模型自主学习修正错误


DeepMind的研究团队在自我纠正(Self-correction)领域取得了新的进展,开发了一种名为SCoRe的方法,使LLM能够通过强化学习自我纠正错误。这一方法不需要依赖外部反馈或额外模型,而是通过在自生成数据上进行训练,让模型学会自我纠正。


SCoRe的主要贡献在于提出了一种多轮强化学习方法,用于教授LLM如何纠正自己的错误。与基础模型相比,SCoRe在MATH推理问题和HumanEval编码问题上的自我纠正能力分别提升了15.6%和9.1%。


SCoRe的原理包括两个阶段:1. 训练模型初始化以防止崩溃:通过微调基础模型,使其在第二次尝试时产生高奖励修正,同时限制第一次尝试的响应分布,避免偏离基础模型的响应。2. 带有奖励的多轮强化学习:在第一阶段的基础上,训练模型的两次尝试响应,并根据优化目标进行调整。


这项研究为LLM的自我纠正能力提供了新的视角,有望在未来提高AI系统的准确性和可靠性。


华为云发布AI-Native云基础设施CloudMatrix



在第九届华为全联接大会上,华为云CEO张平安发表了题为“云上跃迁,AI重塑千行万业”的演讲,介绍了华为云在AI原生思维构建方面的探索和实践,正式发布了AI原生云基础设施CloudMatrix。张平安强调,企业要抓住智能时代的机遇,构筑AI原生思维,将AI技术作为核心要素,重新设计企业流程和IT架构。

华为云旨在构建多元算力、弹性、高效的AI原生的云基础设施。


如今,客户对AI算力的需求正在高速增长,到今年年底,预计对AI算力的需求可能超过对通用算力的需求。张平安表示,以AI算力最优,构建弹性、高效的多元算力基础设施是AI发展的关键,也就是说构建AI 原生的云基础设施是至为关键的。面向智能时代,模型参数已由百亿走向千亿、万亿,为满足AI算力爆炸性增长,满足高可靠、高效能的要求,张平安宣布云基础设施架构CloudMatrix正式发布。


CloudMatrix将CPU、NPU、DPU、存储和内存等资源全部互联和池化,从单体算力向矩阵算力演进,构建一切可池化、一切皆对等、一切可组合的AI原生云基础设施,为客户提供澎湃的AI算力。



阿里云瑶池重磅发布由Data+AI驱动的多模数据管理平台DMS


在2024年云栖大会上,阿里云智能集团副总裁李飞飞发表了题为《从数据到智能:Data+AI驱动的云原生数据库》的演讲。他强调,在大模型时代,数据管理系统需要具备多模态处理和实时分析的能力,而阿里云瑶池数据库将数据与AI全面融合,构建了一站式多模数据管理平台,提供易用、好用、高可用的使用体验。


为了满足企业在多云多端环境下对元数据统一管理的需求,促进数据自由流动,阿里云瑶池发布了由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps。这个平台通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,支持高达40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升10倍。


此外,阿里云瑶池数据库还宣布了全面解耦、全栈池化的AlwaysOn架构,通过旗下核心产品(如PolarDB、AnalyticDB、Lindorm等)提供智能无感秒级弹性,实现资源的极致弹性。


PolarDB作为云原生数据库,提供了多主多写和秒级Serverless能力,解决了多主架构中的冲突处理和数据融合问题,性能在高并发场景下达到业界同类数据库的3倍;云原生数据仓库AnalyticDB(以下简称ADB)兼具数据湖的扩展性和数据库的易用性,ADB支持灵活、多维度的数据分析,可为相关负载节省高达90%的总体拥有成本;云原生多模数据库Lindorm内置了AI推理服务,可加载业务所需的模型处理数据,并提供统一的表视图和SQL访问接口,一体化实现数据查询、融合检索、离线分析、交互分析等功能。


阿里云RDS MySQL发布全球多活数据库(Global Active Database,GAD)功能


全球多活数据库(Global Active Database,GAD)融合了灾备与多活能力,基于RDS与DTS产品,为用户提供一站式、高性价比的灾备与多活解决方案。数据库实例组采用“一主多从”的星型架构,跨地域或可用区的RDS实例均通过DTS保持实时数据同步,实现数据库容灾保护的同时,为用户提供就近访问的服务体验。产品优势包括:


· 高性价比。产品化的全球多活数据库支持用户选择高性价比的RDS产品形态,相比于直接使用“RDS+DTS”构建实例组,GAD的数据同步链路Serverless化,传输费用可下降60%,同时可搭配免费的数据库代理,进一步降低整体架构费用。


· 便捷易用。全球多活数据库提供完整且稳定的异地灾备与多活解决方案,全托管式的RDS与DTS可以满足实例组灵活创建、同步链路自动连接、主从角色快速切换、一键灾备演练等需求,仅需5分钟即可快速构建两地三中心的异地容灾架构。


· 安全可靠。全球多活数据库提供安全合规的资质与链路,助力企业数据出境与业务出海。数据库实例组提供数据一致性校验与订正,避免脏写,RDS与DTS均有严格的SLA保障,保证数据库可用性与安全性。同时,实例组还提供异地多活与灾备能力,满足业务多地部署与容灾需求,数据可以就近访问,降低业务访问延迟。


GBASE南大通用携手英特尔发布面向大模型未来的向量数据库解决方案


GBASE南大通用与英特尔近日联合发布了面向大模型未来的向量数据库解决方案,旨在应对海量向量数据处理带来的性能压力。随着人工智能和深度学习技术的迅速发展,向量数据库的应用场景不断扩展,成为处理非结构化数据的重要工具。GBASE推出的基于第五代英特尔®至强®可扩展处理器的向量数据库系统(GBase 8a MPP Cluster,GCVD),具备高维度支持、相似度搜索、快速插入和更新等特性,能够有效提升数据库性能。


GCVD利用英特尔® AMX加速器优化矩阵计算,显著提高向量检索性能,测试数据显示其性能提升高达2.44倍。该系统采用存算分离架构,支持传统分析业务与向量数据业务的并行处理,适用于图像处理、推荐系统、自然语言处理等多种AI驱动的应用场景。


此外,GCVD的推出不仅解决了数据库性能瓶颈问题,还降低了总体拥有成本(TCO),提升了投资回报率。通过优化服务器规模和能耗,用户可以在更低的成本下实现目标性能。


OceanBase原生分布式+单机分布式一体化从根源解决分库分表难题


随着企业业务的快速增长,传统的单机集中式数据库已无法满足日益增加的数据需求,许多企业转向MySQL的分库分表方案。然而,分库分表虽然能够短期内解决数据存储和处理问题,却也带来了诸多挑战,如系统架构复杂、运维负担加重,以及对业务的侵入性强等。


OceanBase提出了一种新方案,通过原生分布式和单机分布式一体化架构,从根本上解决分库分表带来的问题。该方案旨在消除分库分表对业务的影响,使企业能够在不关心底层架构的情况下实现快速迭代。OceanBase的设计理念是将分布式事务的处理内置于数据库系统中,利用分区表实现水平扩展,从而简化了数据库的设计和运维。


OceanBase的原生分布式架构支持数据在多个计算节点之间的分布,确保数据的一致性和事务的ACID特性。同时,通过透明的路由机制,应用程序无需关注数据的具体分布,能够像操作单体数据库一样处理分布式数据。此外,OceanBase的单机分布式一体化能力允许企业在不同发展阶段灵活调整数据库架构,满足不同业务需求。


Kubernetes v1.31 发布:提升安全性和稳定性并提供 AI/ML 支持


Kubernetes项目发布了代号为“Elli”的v1.31版本,这是其成立十周年后的首个版本更新。Kubernetes v1.31的亮点之一是完全支持AppArmor以增强容器安全性,允许工程师通过容器的securityContext中的appArmorProfile.type字段进行配置。此外,负载均衡器的入口连接得到了改进,以提高节点终止时流量的稳定性。该功能需要kube-proxy作为默认服务代理,并配合支持连接排空的负载均衡器使用。


新版本还引入了跟踪PersistentVolume阶段转换时间的功能,通过在PersistentVolumeStatus中添加lastTransitionTime字段实现,记录PersistentVolume每次变更阶段的时间戳,有助于监控和提高供应速度。


Kubernetes v1.31增加了对OCI(开放容器倡议)镜像卷的支持,允许在Pod中直接使用OCI镜像作为卷,从而简化AI/ML工作流程中容器化数据和模型的访问。社区对此功能感到兴奋,因为它可以提高AI模型的管理和共享效率。


国外资讯


高通可能收购英特尔:行业或将面临重大洗牌


据《华尔街日报》20日援引知情人士的话报道,美国芯片企业高通公司近期与美国芯片制造商英特尔公司,就收购一事进行了接触。多家财经媒体报道称,如果高通收购英特尔成功,这将成为科技史上最大收购案之一,全球芯片业或将迎来重大变革。


这一战略举措有可能为半导体行业带来翻天覆地的变化。若收购成功,高通将得以借助英特尔强大的资源与技术储备,进一步加强其在行业内的竞争力。目前,高通采取的这一系列举措都是为了扩大其业务范围和市场份额。收购一旦实现,将带来诸多利好,如产品线的丰富和市场地位的提升。但是,目前还不清楚这些初步讨论能否最终达成协议,其结果如何将对半导体行业的竞争格局产生深远影响。


《华尔街日报》的报道称,交易细节还远未确定,具体收购金额也尚不清楚。即使英特尔接受高通的报价,这种规模的交易也会招致多国政府以及欧盟方面的反垄断审查。如果双方真的达成交易,高通有可能会将英特尔部分资产出售给其它企业。


Amazon Redshift 正式支持(GA)自然语言生成SQL功能


Amazon Redshift宣布了Amazon Q生成式SQL在Amazon Redshift查询编辑器中的全面可用性(GA)。Amazon Q生成式SQL是一个开箱即用的基于Web的SQL编辑器,用于简化查询编写并提高生产力,它允许用户用自然语言表达查询并接收SQL代码建议。此外,它使用户能够在没有对组织复杂数据库架构和元数据有深入了解的情况下更快地获得洞察。


Amazon Q生成式SQL利用生成式AI分析用户意图、查询模式和架构元数据,直接在Amazon Redshift内识别常见的SQL查询模式,加速用户查询编写过程并减少获取可操作数据洞察所需的时间。它提供了一个会话式界面,用户可以在当前数据权限范围内用自然语言提交查询。生成式SQL利用查询历史记录提高准确性,用户还可以通过自定义上下文(如表描述、列描述、外键和主键定义以及示例查询)进一步提高准确性。


自定义上下文增强了AI模型对特定数据模型、业务逻辑和查询模式的理解,使其能够生成更相关和准确的SQL建议。


Percona宣布推出开源云原生的DBaaS平台


Percona Everest 是 Percona 推出的一款新工具,旨在帮助DBA和开发者更轻松地管理数据库。该工具的核心功能是能够自动发现、监控和优化数据库性能,从而提高数据库的整体效率和可靠性。主要特点包括:


· 自动发现:能够自动识别和监控所有数据库实例,无论它们位于云环境还是本地环境。

· 性能监控:提供实时的性能监控和分析,帮助用户快速识别性能瓶颈。

· 优化建议:根据监控数据提供优化建议,帮助用户提高数据库性能。

· 集成支持:与现有的数据库和监控工具集成,简化部署和使用。

Percona Everest 的推出,标志着 Percona 在数据库管理领域的进一步扩展。通过提供自动化的数据库管理工具,Percona 旨在帮助用户降低数据库管理的复杂性,提高数据库的性能和可靠性。这对于需要处理大量数据和高并发请求的企业来说,具有重要的实际意义。


e6data湖仓计算引擎企业获得 1000 万美金融资,由 Accel 领投


e6data是一家总部位于旧金山的公司,专注于为企业提供数据湖计算引擎以支持数据分析。该公司最近完成了1000万美元的融资,此轮融资由Accel领投,Beenext和其他投资者参与。e6data计划将这笔资金用于扩展其业务运营和加强开发工作。


e6data由首席执行官Vishnu Vasanth领导,开发了一种高性能的数据湖计算引擎,旨在增强现有平台和架构的投资回报率,并帮助企业摆脱生态系统的锁定。该公司的产品能够与数据湖格式、数据目录和治理框架、SQL标准和方言以及对象存储和云服务提供商进行集成。


e6data的解决方案旨在帮助企业更有效地管理和分析大量数据,同时提供灵活性和可扩展性,以适应不断变化的业务需求和技术环境。通过这轮融资,e6data将能够进一步增强其产品的功能,扩大市场影响力,并为更多企业提供服务。

行业资讯


【制造】工信部:到2027年完成约200万套工业软件和80万台套工业操作系统更新换代任务


近日,工业和信息化部组织编制了《工业重点行业领域设备更新和技术改造指南》。其中,在重点领域方面,针对工业软件领域给出具体的更新目标,到2027年,完成约200万套工业软件和80万台套工业操作系统更新换代任务。


工业软件领域,设备更新目标,以提升产业链供应链韧性和安全水平为重点,围绕石油、化工、航空、船舶、钢铁、汽车、医药、轨道交通等关系经济命脉和国计民生的行业领域,推动基础软件、工业软件和工业操作系统更新换代。基础软件方面,重点更新工业领域应用的操作系统、数据库、中间件等产品。工业软件方面,重点更新计算机辅助设计(CAD)、计算机辅助工程(CAE)、计算机辅助制造(CAM)、制造执行系统(MES)、企业资源计划(ERP)等研发设计、生产制造、经营管理、运营维护相关软件。工业操作系统方面,重点更新可编程逻辑控制器(PLC)、分布式控制系统(DCS)、数据采集与监视控制系统(SCADA)、安全仪表系统(SIS)、嵌入式软件等产品。到2027年,完成约200万套工业软件和80万台套工业操作系统更新换代任务。


【交通】多部门联合发文,推进智慧口岸建设


近日,海关总署、国家发展改革委、工业和信息化部、财政部、交通运输部、国家移民局、国家铁路局、中国民航局、国铁集团联合发布《关于智慧口岸建设的指导意见》(简称《意见》)。


《意见》提出,到2025年,普通口岸设施设备和信息化短板基本补齐,口岸通行状况明显改善;重要口岸设施设备和监管运营智能化水平显著提升;枢纽口岸基本建成智慧口岸并发挥引领示范作用。到2030年,初步建立口岸各参与主体智慧互联、协同联动、高效运行的良好生态,部分口岸智慧化程度达到国际先进水平。到2035年,基本建成现代化口岸,引领全球智慧口岸发展。《意见》明确17条具体要求,涵盖口岸设施设备智能化建设、口岸运行管理数字化建设、口岸协同监管精准化建设、口岸综合服务泛在化建设、推动口岸区域合作机制化等各方面。


在口岸设施设备智能化建设方面,鼓励口岸经营主体开展老旧设施设备升级改造,推广智能装卸、理货、堆存、换装等口岸智能化作业模式;鼓励有条件的港口建设自动化无人码头,实现设施设备运行状态实时监测,集装箱自动化转运和堆垛,运输工具行驶路径智能规划调度,口岸作业全过程智能化管理。在口岸运行管理数字化建设方面,采用数字技术提升口岸运行动态感知能力,汇集基础设施、物流运行、通关监管等信息,形成口岸全要素数据资源“一个库”;实时监测口岸运行关键指标,实现口岸全景式运行管理“一张图”。


国内政策资讯


2024上市公司半年报披露:数据资产入表企业数量增长83%,多数仍集中在信息技术产业


近日,2024年上市公司半年报披露完毕。数据显示,共有33家上市企业在半年报实现了数据资源入表,入表金额共计5.05亿元。入表企业数量增长83%,行业分布更为多元。从数据资源的计入类别来看,有20家企业将数据资源计入“无形资产”项,18家企业将数据资源计入“开发支出”项,其中6家企业的数据资源同时在“开发支出”和“无形资产”两个类别中都有金额计入。此外,海天瑞声是唯一将数据资源计入“存货”的企业。半年报显示,除信息技术服务行业和制造业继续保持较大比例外,新增了通信行业、商业服务业、金融行业、批发和零售业等多个行业。


中共三亚市委《决定》:建设三亚国际数据交易中心


近日,海南省人民政府官网显示,中共三亚市委发布《中共三亚市委关于加快发展新质生产力的决定》(以下简称《决定》),《决定》提出积极打造国际数据港,探索建设三亚国际数据交易中心,打造国际数据交换重要中转站,推动数据总部经济发展。


《决定》提出锚定新质生产力发展目标,到2025年三亚全社会研究与试验发展(R&D)经费支出占地区生产总值比重达到3%以上,形成优势特色创新高地。重点发展领域包括现代种业、海洋强市建设、空天产业、绿色转型、数字经济等。


在培育发展数字产业集群方面,《决定》提到积极打造国际数据港,探索建设三亚国际数据交易中心,打造国际数据交换重要中转站,推动数据总部经济发展。大力发展数字文创、数字文娱,推动数字产业创新发展。鼓励大模型平台以及开源社区、开发者平台落地研发。推动“旅游+研发”业态,打造全球数字游民创新创业胜地。


扫码关注我们

扫码关注我们

END

文章转载自Hadoop大数据应用,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论