点击蓝字 关注我们
✦
✦


演讲主题
使用多模态模型构建适用于 LLM 搜索的数据
内容简介
在当前大语言模型(LLM)和AI代理广泛应用的背景下,数据质量成为构建高效应用的核心。本次演讲将分享一套系统化的数据处理方法,专为企业应对其最大的技术挑战之一——如何将多源非结构化数据转换为适合LLM处理的高质量知识库。该流程集成了OCR、公式识别、多模态标注与嵌入生成等关键步骤,通过构建统一的管道,能够高效地处理来自PDF、DOCX、PPTX、XLSX、RTF等多种格式的数据文件。通过定制化训练的视觉语言模型(LLM)和专用嵌入模型,此流程显著提升了对复杂表格、图像和公式的识别与解析能力。
为了进一步优化数据处理效率,流程引入了MatrixOne的HSTAP架构,并结合GPU加速的向量化计算。该技术框架在透明的数据环境中,使得数据的标签、嵌入和结构信息能够通过自然语言查询快速检索,显著提高了数据使用的灵活性和响应速度。该方法论的核心在于通过深度处理企业现有数据,提供AI驱动的技术支持和洞察能力,以此提升决策的质量与精度。同时,这一方法显著简化了基于LLM的应用开发流程,在多个行业场景(如科技、智能制造、金融、教育、电商、法律和电信)中效果显著。
演讲提纲
多模态模型的混合检索架构
GPU加速的数据处理与模型优化
LLM辅助的检索结果筛选与优化
引导式数据标注与自动化数据洞察
听众收益
了解如何充分挖掘和利用非结构化数据中的深度信息,进而提升数据驱动决策的精准性。
理解如何通过高效的数据处理流程加速基于LLM的应用开发,从而缩短企业AI项目的上线时间。
了解如何简化复杂的数据清洗与准备流程,帮助团队集中精力于更高价值的任务上,提升整体效率。
专场信息
日期:2024年12月13-14日
地址:北京丰大国际大酒店
专场:结合 AI 模型的数据生命周期管理
讲师介绍
赵晨阳
矩阵起源 研发副总裁
硕士毕业于Clark University,是一位在国际舞台上屡获殊荣的资深技术专家。曾在Google和电商巨头Shopee担任高级研发工程师,专注于遥感图像大数据和深度学习领域的研究与开发。精通深度学习Pipeline的构建,对中台技术的研发有着深刻的理解和丰富的实践经验。对AI与数据库应用的融合有丰富的实践经验。
MO展位信息
日期:2024年12月13-14日
地址:北京丰大国际大酒店
展位:2 楼 B04
欢迎前来展位洽谈~

关于AICon全球人工智能开发与应用大会
202412·北京站
AICon 全球人工智能开发与应用大会是由极客邦科技旗下 InfoQ 中国主办的人工智能和大模型技术盛会,主要面向各行业对人工智能和大模型感兴趣的资深工程师、产品经理、数据分析师,会议聚焦大模型训练与推理、AI agent、RAG、多模态大模型等热门方向,会议不仅安排了精彩的演讲,还策划了包括闭门会议、圆桌交流、互动展区等多种社交活动,一方面为参会人员提供宝贵的交流学习、拓展人脉的机会,另一方面也为相关企业和机构提供一个展示自身实力和成果的舞台。


欢迎小伙伴们来跟我们交流经验!
扫码加入MatrixOne技术交流群
(如二维码过期,请添加小助手微信: MatrixOrigin001)
关键词:MatrixOrigin

知乎 | CSDN | 墨天轮 | OSCHINA | InfoQ | SF | Bilibili

点击“阅读原文”查看更多MatrixOrigin News







