AI Infra崛起，RAG引领大模型风潮!湖仓一体+AI创新融合；大数据连接成为大生意;MySQL支持向量数据;全球大模型数量

Hadoop大数据应用 2024-07-12

681

点击蓝字关注我们

行业快讯与友商动态 2024年第21期:

RAG(基于检索增强的内容生成)产品和方案逐渐增多了，如微软开源GraphRAG项目，InfiniFlow开源项目RAGFlow，Elastic推出低代码平台Playground，利用Elasticsearch加速RAG开发等。

RAG通过搜索内部信息给LLM提供与用户提问最相关的内容，来帮助LLM做最终的答案生成。随着LLM的爆炸性增长，每家使用LLM的公司都需要内置一个强大的检索系统，才能使得LLM可以真正为企业用起来，RAG 也成为最早为大众所知的使用姿势。

AI企业发展也成为行业的一个热点。中国信通院发布《全球数字经济白皮书(2024年)》，全球AI企业近3万家，美国占全球的34%，中国占全球的15%。

截至目前，全球人工智能大模型有1328个(包含同一企业、同一模型的不同参数版本)，美国大模型数量位居全球第一，占44%，位居第二的中国大模型数量占比为36%。

从2023年到2024年第一季度, 全球AI独角兽已有234家，新增数量为37家，占新增独角兽总量的40%，其中，美国AI独角兽120家，中国AI独角兽71家。

本周焦点

1.WAIC官方报道：备受瞩目!星环科技AI Infra系列成果集中亮相WAIC 2024
2.上海世界人工智能大会发布《全球人工智能治理倡议》，星环科技重磅参加
3.共启AI向善新篇章共绘AI未来新蓝图 ——写在2024世界人工智能大会闭幕之际

大数据
4.中国信通院发布《全球数字经济白皮书(2024年)》，全球AI企业近3万家
5.AI Infra解锁新质生产力，助力企业迈向数智化!
6.瑞典数据湖仓一体公司Hopsworks 推出首个数据湖仓一体AI系统
7.StartDT奇点云发布全域数据资产管理产品SimbaFabric
8.Datablau7多款产品发布，应用于企业数据治理、数据开发、数据运维
9.CData融资3.5亿美元，大数据连接成为大生意

数据库
10.MySQL 9.0悄悄上线，支持面向AI的向量数据库
11.东方国信CirroData-TimeS时序数据库全新升级，新版推出四大新功能
12.TuGraph布式图数据库上线阿里云市场，两大版本满足不同需求
13.新选择新希望，高性能内存数据库Rudis 0.0.1发布

数据安全
14.“AI团队”利用零日漏洞的工作效率提升4.5倍以上
15.腾讯数据安全治理方案轻松应对重保“大考”

AI
16.星环科技参编《大模型驱动的智能知识图谱技术要求》标准
17.Elastic推出低代码平台Playground，利用Elasticsearch加速RAG开发
18.UiPath发布新功能，通过Autopilot和GenAI加速自动化流程
19.新一代RAG来了!微软开源超强GraphRAG，5天拿下5.9K Star!
20.RAGFlow开源Star量破万，正式进入Agentic时代
21.OpenAI已训练CriticGPT模型：基于GPT-4 用来帮ChatGPT纠错
22.OpenAI CEO又创办了一家AI公司!Thrive AI Health公司

本周焦点

1.WAIC官方报道：备受瞩目!星环科技AI Infra系列成果集中亮相WAIC 2024

“以共商促共享以善治促善智”，7月4日，2024世界人工智能大会暨人工智能全球治理高级别会议在上海开幕，国务院总理李强出席开幕式并致辞。星环科技作为2024世界人工智能大会的战略合作伙伴，受邀第七次参加世界人工智能大会，携其全系列AI Infra平台与工具集璀璨登场，向公众绽放其卓越风采与无尽魅力。

生成式AI正在重塑千行百业，促使企业原有的基础设施需要升级到AI Infra以把握新机遇。星环科技提出“从Data Infra到AI Infra”的发展目标，就是要更有效地统一管理算力、语料、应用，更准确、快捷地处理、存储、检索海量多模数据和知识，为千行百业提供多样、专业的原生人工智能应用，为用户提供端到端的人工智能语料、模型和应用的开发和应用解决方案。

在WAIC盛会上，星环科技携其全系列的AI Infra平台与工具集璀璨登场，300+m展位集中展示星环科技AI Infra系列成果，包括星环知识平台TKH、星环语料开发工具TCS、无涯·问数、问知AI PC版等。

2.上海世界人工智能大会发布《全球人工智能治理倡议》，星环科技重磅参加

7月4日，2024世界人工智能大会暨人工智能全球治理高级别会议以“共商促共享，以善治促善智”为主题，强调了在全球化背景下，人工智能技术发展应遵循的原则与目标，发表《人工智能全球治理上海宣言》。

宣言呼吁各国政府、科技界、产业界等多方力量积极响应，共同推动人工智能的健康发展，使之成为全人类共同的福祉。宣言的核心内容覆盖了四大关键领域：促进人工智能发展、维护人工智能安全、构建人工智能治理体系以及加强社会参与和提升公众素养。

宣言倡导建立全球范围内的人工智能治理机制，支持联合国发挥主导作用，并强调加强南北合作与南南合作，提升发展中国家的话语权。同时，它鼓励多元主体积极参与，共享测试、评估、认证与监管经验，确保AI技术的安全可控。

宣言还提到了加强社会参与的重要性，通过多元化的参与机制让公众深入了解AI，提升公众的数字素养与安全意识。这不仅有助于构建更加包容的AI生态系统，也促进了公众对AI技术的理解和支持。

宣言最后指出，应积极推动AI在可持续发展领域的应用，包括工业创新、环境保护、资源利用等多个方面，尤其强调了AI在提升医疗、教育、养老等民生领域福祉的作用。

3.共启AI向善新篇章共绘AI未来新蓝图 ——写在2024世界人工智能大会闭幕之际

7月6日，为期三天的2024世界人工智能暨人工智能全球治理高级别会议落下帷幕——“以共商促共享以善治促善智”，107场论坛探讨尺度定律的数学极限、探寻人工智能赋能科学研究与产业发展……更向全球发出人工智能全球治理的中国态度、上海倡议。

正如大会开幕式上所强调的，人工智能发展迫切需要各国深入探讨、凝聚共识，共抓机遇、共克挑战。中国愿与各国一道，推动人工智能更好服务全球发展、增进人类福祉，共同走向更加美好的智能未来。

人工智能技术快速发展为经济社会发展带来巨大红利，同时也带来深度伪造、隐私保护、知识产权争议等诸多风险挑战。促进人工智能开发与安全，人工智能的全球治理和伦理问题是无法避免的重大课题，亟需通过对话与合作凝聚共识。

发展与安全是人工智能的一体两翼。在安全和治理基础上，探索AI前沿、更好推动AI赋能产业发展，也是今年大会的重要议题。

世界人工智能大会是观察全球人工智能发展的窗口，也是上海打造人工智能生态系统的一个缩影，政府、企业、高校、研究机构与资本形成合力，构建资源共享、优势互补、协同创新的良好生态。

这种生态协同促进了技术的快速迭代与产业升级，吸引着全球人工智能领域的目光，上海正逐渐成为全球人工智能产业的高地。

大数据

4.中国信通院发布《全球数字经济白皮书(2024年)》，全球AI企业近3万家

7月2日，2024全球数字经济大会在北京国家会议中心开幕。中国信通院会上发布的《全球数字经济白皮书(2024年)》显示，2023年，美国、中国、德国、日本、韩国等5个国家数字经济总量超33万亿美元，同比增长超8%。2024年至2025年全球数字产业收入增速预计将出现回升。

国家数据局局长刘烈宏在会上表示，2023年中国数字经济核心产业增加值估计超过12万亿元，占GDP的比重为10%左右，有望提前完成“十四五”规划目标。

整体规模保持增长的同时，数字经济核心产业活力涌现。只需要几秒钟，就能构建一个3D数字分身;多模态大模型加快与智能手机、智能机器人融合应用;元宇宙世界里，用户戴上VR虹膜设备可以快速识别并核验身份……大会展区内，一批新技术、新产品集中展出，生动展现数字世界的图景。

以人工智能为例，《白皮书》显示，截至今年一季度，全球AI企业近3万家，中国占全球的15%。

5.AI Infra解锁新质生产力，助力企业迈向数智化!

7月5日，在2024世界人工智能大会暨人工智能全球治理高级别会议期间，由星环科技主办的“新质生产力：AI Infra构筑企业新动能”主题论坛在上海世博会议中心成功举行。论坛汇聚了行业专家，共同探讨如何构筑企业AI Infra，推动企业数字化智能化转型。

在数字化浪潮中，企业正面临着前所未有的机遇与挑战。随着自然语言大模型技术与应用的迅猛发展，企业与数据的互动模式发生了根本性的变化。为了应对这一变革，企业需要建立自己的AI基础设施(AI Infra)，确保企业能够统一处理多样化的数据，构建高效、智能的企业级知识库，实现生产力的变革和业务模式的创新。

而AI Infra的建立对于企业发展具有深远意义，不仅能够打破数据孤岛，实现数据的统一管理和高效利用，而且借助AI Infra，企业可以将内部数据、个人经验数据以及公开信息数据等转化为知识，为企业决策和创新提供有力支持。因此，利用大模型等AI技术赋能各行业研发、场景应用及全产业链，已成为发展新质生产力的重要引擎之一。

6.瑞典数据湖仓一体公司Hopsworks 推出首个数据湖仓一体AI系统

瑞典数据湖仓一体公司 Hopsworks AB 正在推销它所说的业界“第一个用于构建批处理、实时和大型语言模型的统一平台”人工智能系统。Hopsworks 4.0 提供多项新功能，旨在帮助 AI 系统利用实时数据，包括新的特征存储和向量数据库索引系统，还为LLM添加了原生Python 访问和更精细的微调功能。

Hopsworks 是企业级机器学习平台的创建者，该平台旨在支持大规模数据管道的开发和运营。它是Snowflake和Databricks等数据仓库平台的竞争对手，据说其平台基于“功能存储”，使团队能够管理用于AI模型训练和推理的数据集。

借助 Hopsworks 平台，团队可以访问用于管理功能、实验、AI 模型和数据资产的集中式存储库。它还为需要协作处理敏感数据的用户提供多租户。

Hopsworks 支持流行的机器学习工具和框架，例如 Apache Spark、TensorFlow、PyTorch 和 Scikit-Learn，使其用途极其广泛。据该公司称，这是一个集成系统，有助于克服扩展人工智能过程中的一些最大障碍，包括超参数调整、特征工程和训练。

随着 Hopswork 4.0 的发布，该公司表示它正在提高性能和可用性。它通过跨区域复制功能提高了平台的弹性，使其能够在硬件和网络故障中幸存下来。（siliconangle.com）

7.StartDT奇点云发布全域数据资产管理产品SimbaFabric

奇点云基于 SimbaOS Kernel，构建了新一代全域数据资产管理产品 SimbaFabric，提供元数据采集、数据盘点、数据标准、数据质量等功能，帮助客户搭建企业级数据资产管理中心，实现数据资产的可见、可管、可用，并进一步为数据交换、资产入表等打好基础。

SimbaFabric 可以通过以下几点，助力企业更好地完成数据资产入表：

· 数据资产盘点编目;

· 全链路血缘，帮助计量和价值评估;

· 数据质量保障和监控。

奇点云针对数据资产入表提供包含方案咨询、资产构建、端到端血缘梳理、监控体系搭建等全套服务能力，具体可以咨询 StartDT 小助手。

8.Datablau7多款产品发布，应用于企业数据治理、数据开发、数据运维

Datablau数语科技发布Datablau 7系列产品。其中数据链路监测平台基于元数据采集和血缘解析的能力，将原始的元数据与后期丰富的定义一并收集、编目，结合业务输入形成实用的应用场景，同时应用于企业数据治理、数据开发、数据运维等日常工作之中，提升其透明度与效率。

而数据资产开发平台则是一款基于数据治理端到端的数据资产开发平台，让数据开发更规范，更可控，更敏捷、质量更高，打破了传统企业数据开发团队孤岛管理模式。该产品拥有五大特性：数据仓库建模、数据项目管理、智能程序开发、自助模型分析、任务编排调度。

DDM Archy是基于Datablau DDM推出的一个架构建模套件产品，可以让企业用一个模型，把业务到数据，从高端架构到初级项目实施统一贯穿起来，以此来把架构的产物作为企业数据资产的坐标系，并介绍了该产品的核心功能与优势：数据架构资产构建、项目级架构管控、架构分布和流转图、其它工具集成。

Datablau AIC拥有海量的行业知识库，广泛涉及金融(银行、保险、证券、基金)、制造等各种行业术语。这一庞大的知识体系不仅包括行业规范、制度、体系、指引、案例等，同时还集成了数据模型、标准、指标、数据字典等治理相关的行业数据。通过AIC的计算能力可以有效的赋能元数据补全、数据质量规则构建，数据建模、智能数据安全分类分级、智能数据资产对标等数据治理相关工作。

9.CData融资3.5亿美元，大数据连接成为大生意

CData Software获得3.5亿美元的巨额融资，这不仅使数据连接解决方案崭露头角，而且也代表了大数据的胜利。自 2014 年从/n Software 中分离出来以来，CData Software 一直在构建低级连接器，以保持数据在各种数据库、应用程序、框架和文件系统之间流动，使我们的现代数字世界成为可能。

如果您需要Salesforce的 ADO.NET 提供程序、Snowflake 的 ELT 工具、TensorFlow 的 ODBC 读取器或奥马哈分销商的 AS2 文档，您可以查看 CData 以提供使数据从一个地方移动到另一个地方的位。

如今CData拥有近100种不同的数据连接产品目录，支持超过300个不同的端点，其中存储数据(数据库、文件系统等)或生成数据(ERP 系统、电子商务网站等)。Oracle、Informatica、Altair、Salesforce 和 Collibra 等数百家软件和服务公司都与 CData 签订OEM 协议。

CData拥有约7,000名客户，根据路透社的一篇报道，其收入正以40%的年增长率增长，预计到2024年底将达到1亿美元的年度经常性收入。（datanami.com）

数据库

10.MySQL 9.0悄悄上线，支持面向AI的向量数据库

MySQL狂热粉丝群已经发现MySQL官网上MySQL9.0这两天悄然上线，已经可以下载体验了，目前被定义为创新版本(Innovation)。支持主流的操作系统，安装后可以直接使用mysql客户端访问。

从 MySQL 8.1 开始，官方启用了新的版本模型：MySQL 创新版 (Innovation) 和长期支持版 (LTS)。

MySQL 9.0 “创新版”，最值得关注的新特性莫过于支持向量数据类型，字段类型名称为 VECTOR，可以使 to_vector/string_to_vector/from_vector/vector_dim 等函数操作向量数据。据说在 MySQL 9.0 里新增向量数据类型是为了 Heatwave 服务，而不是为了 MySQL 社区用户服务。

MySQL HeatWave 是 Oracle 提供的一种数据库服务，它通过集成内存查询加速器来显著提高 MySQL 查询的性能，并且允许用户在不增加复杂性、延迟、风险和成本的情况下，对事务性数据进行实时分析。用户无需将数据进行 ETL(提取、转换、加载)操作复制到单独的分析数据库中。

11.东方国信CirroData-TimeS时序数据库全新升级，新版推出四大新功能

东方国信CirroData-TimeS时序数据库进行了全新升级，推出了V1.3.1版本。新版时序数据库新增四项新功能，分别在安全控制、数据同步、系统监控和序列视图方面带给用户全新体验!

其中序列视图：一种全新的基于时间序列的数据组织管理方式;一个序列视图就是一条虚拟的时间序列，每条虚拟的时间序列都像是一条软链接或快捷方式，映射到某个视图外部的序列或者某种计算逻辑。换言之，一个虚拟序列要么映射到某个确定的外部序列，要么由多个外部序列运算得来。用户可以使用复杂的SQL查询创建视图，此时序列视图就像一条被存储的查询语句，当从视图中读取数据时，就把被存储的查询语句作为数据来源，放在FROM子句中。

此外CirroData-TimeS V1.3.1也对原有系统问题进行了修复，同时优化了多项功能操作，不断满足用户在新场景中的新需求。

12.TuGraph布式图数据库上线阿里云市场，两大版本满足不同需求

TuGraph 4.0 分布式版本正式在阿里云市场上线，为企业级用户提供更强大的数据处理和分析能力。云市场版本交付方式为计算巢私有化部署，自动完成云资源的创建和应用部署，相比传统部署方案，大幅降低配置复杂度。

此次上线阿里云市场的TuGraph提供了2个版本，以满足不同用户的需求：

● 基础版：提供单ECS节点部署，适合开发或测试环境。

● 标准版：提供三节点高可用部署方案，可保证业务连续性，适合生产环境。

13.新选择新希望，高性能内存数据库Rudis 0.0.1发布

Rudis 是一个高性能内存数据库。Rudis 是采用 Rust 语言开发的项目，旨在利用 Rust 语言的优势来重新实现 Redis 的核心功能，以满足用户对高性能、可靠性和安全性的需求，同时保持与 Redis API 的兼容。

Rudis 0.0.1的特性包括：

·跨平台，兼容 windows、linux 系统架构。

·兼容字符串、集合、哈希、列表、有序集合数据结构。

·提供 rdb 与 aof 机制以支持数据备份和恢复。

·兼容 Redis 的命令和协议规范。

数据安全

14.“AI团队”利用零日漏洞的工作效率提升4.5倍以上

零日漏洞利用是网络安全攻击的“核武器”，也是AI难以染指的安全研究“圣杯”。但是，安全研究人员近日发布的一篇论文颠覆了这一观点，在网络安全圈里炸开了锅!该论文证明大语言模型(LLM)可以高效自动化利用(未知的)真实零日漏洞。

伊利诺伊大学香槟分校的研究团队在其论文《用大语言模型利用零日漏洞》中，探讨了大语言模型在自动化利用网络安全漏洞中的应用，特别是零日漏洞的利用。研究人员设计了一种由大语言模型AI代理组成的“AI团队”，能够利用真实世界的零日漏洞。单个AI代理在探索大量不同漏洞和进行长期规划方面存在瓶颈。

研究团队使用OpenAI的API、LangChain和LangGraph实现了HPTSA系统，并通过GPT-4模型进行所有实验。为了减少成本，他们采用了一种HTML简化策略，去除无关的HTML标签以降低令牌数量。

研究人员构建了15个真实漏洞的基准测试，结果表明，“AI团队”利用零日漏洞的工作效率提升了4.5倍以上。

15.腾讯数据安全治理方案轻松应对重保“大考”

目前企业在安全建设方面的工作主要集中在网络安全上，以安全事件的应急响应为主导，而针对数据安全的投入和关注仅占8.4%。如何省心又高效地收敛风险，已经成为众多企业的共同诉求。腾讯数据安全治理方案从数据安全治理四大关键步骤出发，提供了全方位的安全布防服务，助力企业在重保期间实现数据安全“最优解”。

四大关键步骤促进数据安全治理闭环：第一，数据默认安全，与业务共生;第二，透明的数据流转，全程可追溯;第三，强化防御，打造数据安全免疫系统;第四，智能化运营，实现风险闭环管理。

腾讯安全数据建设方案五大场景能力切入各个击破，包括：运维加固，SaaS堡垒机让安全再加码;全方位安全审计，数据溯源有依据;密钥无忧，强化密钥安全管理;数据资产发现，分类分级精准管控;加密脱敏免改造，降本增效提安全。

16.星环科技参编《大模型驱动的智能知识图谱技术要求》标准

大语言模型(LLM)和知识图谱(KG)作为两种重要的知识处理技术，能力存在高度互补性，正在经历着深度的融合发展。日前，中国信通院宣布《大模型驱动的智能知识图谱技术要求》标准研制完成。该标准充分参考了各行业智能知识图谱落地实践经验，包含数据准备、模型场景化适配、智能知识图谱构建、智能交互应用、知识图谱存储与管理等5大能力域，14个能力子域，50余个能力项，旨在推动大模型和知识图谱优势能力互补、深度融合发展。

星环科技凭借在大模型领域的深耕布局和技术实力，积极参与该标准的编写工作，对“大模型场景化适配”与“数据准备能力”两个关键部分做出了重要贡献，不仅为大模型在不同知识图谱场景下的适配及所需数据准备能力提供了素材和建议，还积极参与了相关标准的讨论过程，为行业提供有价值的参考和指导，推动大模型在在知识图谱构建和应用中的标准化进程，进而提升整个领域的技术成熟度和应用效率。

17.Elastic推出低代码平台Playground，利用Elasticsearch加速RAG开发

Elastic宣布推出 Playground，一款低代码应用，使开发人员能够在几分钟内使用Elasticsearch构建RAG应用。Playground 的直观界面允许用户对不同的大型语言模型(LLM)进行A/B 测试，并改进检索机制，以使用索引到Elasticsearch 索引中的专有数据来构建答案。

开发人员使用 Elastic Search AI 平台(包括 Elasticsearch 矢量数据库)来实现全面的混合搜索功能，并利用越来越多的 LLM 提供商的创新。现在，Playground 体验通过直观的用户界面将这些功能结合在一起，消除了构建和迭代生成式 AI 体验的复杂性，最终加快了客户的上市时间。

Playground 可以直接在 Elasticsearch 中利用 transformer 模型，并由 Elasticsearch Open Inference API 增强，该 API 集成了来自不断增长的推理提供商列表(包括 Cohere 和 Azure AI Studio)的模型。

Playground 目前支持来自 OpenAI 和 Azure OpenAI 服务的聊天完成模型。

18.UiPath发布新功能，通过Autopilot和GenAI加速自动化流程

UiPath展示了面向开发者的Autopilot功能。该功能结合了GenAI和自然语言处理(NLP)技术，在UiPath Studio中创建工作流程、生成表达式，以及构建自动化项目。

目前，这一解决方案已获得超过70%的接受率，它简化了操作流程，使经验较少的开发者也能更容易地快速开展工作。

Autopilot提供的关键功能包括：文本转工作流程、文本转表达式、文本转代码以及将PDF表单、文本或图像转换为UiPath应用程序等。

此外，针对测试人员的UiPath Autopilot利用GenAI技术加速软件测试的各个环节，通过改进需求和自动生成测试步骤，并将这些测试用于创建编码自动化。其特定功能还包括质量检查、测试设计、自动化测试和测试洞察。

19.新一代RAG来了!微软开源超强GraphRAG，5天拿下5.9K Star!

近期微软开源了 GraphRAG项目，该项目不到 1 周就迅速拿下 5.9K Star，非常火爆。GraphRAG 是一种结构化、层次化的检索增强生成(RAG)方法，有别于使用纯文本片段的语义搜索方法。GraphRAG 流程包括从原始文本中提取知识图谱、构建层次结构、生成摘要，然后在执行基于 RAG 的任务时利用这些结构。

GraphRAG 能够连接大量信息中的信息，并使用这些连接来回答使用关键字和基于向量的搜索机制难以或不可能回答的问题。在上一个问题的基础上，提供有关系统如何为各种用途提供功能的高级信息。这使得使用 GraphRAG 的系统能够回答跨越多个文档的问题以及诸如 “此数据集中最重要的主题是什么?” 之类的问题。

20.RAGFlow开源Star量破万，正式进入Agentic时代

RAGFlow期开源刚满 3 个月，已经获得了 github 万星。4 月 1 日，InfiniFlow (英飞流)的端到端 RAG 解决方案 RAGFlow 正式开源，首日即获得了 github 千星，目前已接近 3000 star。在这之前，InfiniFlow 还开源了专门用于 RAG 场景的 AI 原生数据库 Infinity，一个是 AI Infra基础组件。

从 0.8 版本开始，RAGFlow 后端提供了完整的基于图的任务编排框架，并且在前端支持无代码方式编辑任务和工作流，正式步入Agentic 时代。

可以把这类以 LLMOps 为核心的 RAG 看作 1.0 版本，它的主要特点在于重编排而轻效果，重生态而轻内核。因此，从面世一开始就迅速普及，普通开发者可以借助于这些工具快速搭建起原型系统，但在深入企业级场景时，却很难满足要求，并且经常处于无计可施的状态。

RAG 2.0 是以搜索为中心的端到端系统，它将整个 RAG 按照搜索的典型流程划分为若干阶段：包含数据的信息抽取、文档预处理、构建索引以及检索。

RAG 2.0 是典型的 AI Infra，它无法用类似的 LLMOps 工具来编排。因为以上环节之间相互耦合，接口远没有到统一API和数据格式的地步，并且环节之间还存在循环依赖。例如对问题进行查询重写，是解决多跳问答、引入用户意图识别必不可少的环节。查询重写和获得答案，是一个反复检索和重写的过程。

21.OpenAI已训练CriticGPT模型：基于GPT-4 用来帮ChatGPT纠错

随着GPT系列大模型的不断升级，OpenAI所训练的ChatGPT也在拥有更强的能力，但这也带来了一些挑战，它所生成的内容中存在的错误也越来越隐蔽，逐渐到了AI训练师难以发现的程度。

而为了应对这一挑战，OpenAI也想出了新招，他们基于GPT-4模型，训练了一个用于发现ChatGPT输出代码错误的模型。

从OpenAI在官网公布的消息来看，CriticGPT在他们的应用中有不错的效果，他们发现在新模型的辅助下，使用者在检查ChatGPT的输出代码时，比没有CriticGPT的协助要好60%。

在官网上，OpenAI提到，他们也是通过RLHF (从人类反馈中强化学习，Reinforcement Learning from Human Feedback)来训练CriticGPT，与训练ChatGPT类似。但与训练ChatGPT不同的是，他们在训练CriticGPT时，看了大量包含错误的输入。

虽然CriticGPT能帮助发现更多的问题，但也存在不足，还有改进的空间。OpenAI在官网上就提到，并不是所有的发现都是准确的，用于训练的ChatGPT生成内容也普遍很短，还需要开发新的方式，以协助训练师理解更长和更复杂的任务。

此外，OpenAI在官网上也提到，在研发CriticGPT的过程中，他们发现将RLHF应用于GPT-4时，能帮助生成更好的RLHF数据，他们计划扩大这一项工作的规模，并付诸实践。

22.OpenAI CEO又创办了一家AI公司!Thrive AI Health公司

OpenAI CEO萨姆·阿尔特曼(Sam Altman)与AI医疗健康巨头Thrive Global的CEO阿里安娜·赫芬顿(Arianna Huffington)一起在《时代》杂志上发表了一篇文章，正式宣布了Thrive AI Health公司的成立。

Thrive AI Health的目标是打造一个个性化“AI健康教练”，以手机App形式呈现。目前公司CEO是谷歌前健康和可穿戴设备负责人德卡洛斯·洛夫(DeCarlos Love)，OpenAI创业基金和Thrive Global是主要投资方。Thrive AI Health从OpenAI创业基金筹集了1500万美元，目前Thrive AI Health官方并未公布具体的融资金额。

睡眠、饮食、运动、压力管理和社交这五大日常行为是AI健康教练聚焦的重点，AI会提供非常精准的建议，比如“下午3点15分接孩子放学后和孩子一起散步10分钟”、“第二天早上6点要起床赶飞机，所以晚上10点开始放松准备睡觉”。

大数据应用，从我开始

END

科技 mysql 大数据人工智能数据治理

文章转载自Hadoop大数据应用，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

AI Infra崛起，RAG引领大模型风潮!湖仓一体+AI创新融合；大数据连接成为大生意;MySQL支持向量数据;全球大模型数量

评论