暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Coggle专访「黑桃」:从实操学习RAG

Coggle数据科学 2024-03-05
201

unsetunset个人简介unsetunset

大家好,我是黑桃。不会健身的程序猿不是一个好厨子。最近大模型一直很火,趁着过年时间充足正好充下电。希望以后能跟大家共同探讨,共同进步。

unsetunset竞赛经历unsetunset

  • 第三届阿里云磐久智维算法大赛 亚军
  • 2023 Novozymes Enzyme Stability Prediction 银牌
  • 2021 Optiver Realized Volatility Prediction 铜牌
  • 未来杯高校 AI 挑战赛——城市租金预测 Rank 5
  • 科大讯飞-应用类型识别挑战赛 Rank 6
  • 2019厦门国际银行“数创金融杯 Rank 6
  • Imagine Computing创新技术大赛赛道1:边缘云内容分发网络客户体验预测算法 Rank 12

unsetunset本次学习的笔记地址unsetunset

https://gitee.com/heitao5200/my_blog/tree/master/docs/%E7%BB%84%E9%98%9F%E5%AD%A6%E4%B9%A0/30days-of-ml/%E5%8A%A8%E6%89%8B%E5%AD%A6RAG

unsetunset学习心得unsetunset

一直在网上找一些大模型相关的课程,对大模型的概念,原理、langchain、RAG、微调都有了初步的了解。但是感觉还是不够深入,离具备工程化的能力还有一定差距。2月初刚好看到Coggle的RAG课程,学完感觉自己的RAG能力有进一步的提升。

下面谈谈本次学习的收获:

数据清洗的重要性

  • 众所周知,数据对所有模型的重要性基本都是T0级别的,RAG当然也离不开干净的语料数据。
  • 本次学习的数据来自于PDF,需要使用pdf读取器读取出来,其中数据包含很多特殊字符,还包含一些表格数据,另外不同的页面布局也会导致一些脏数据等。本次学习过程中对数据清洗之后,模型的效果有显著提升

文本划分

  • RAG 系统中将文档分割成多个文本块进行向量嵌入,目的是减少嵌入内容中的噪声,提高检索准确性。

  • 每一个文本块需要尽可能包含完整且相关的主题信息,因此实施合适的分块策略尤为重要

文本多路召回与重排序

  • 语义搜索可能无法提供最相关的结果。虽然可以找到语义上最相似的文档,但是语义上最相似并不一定最相关。

  • 重排模型通过不同的排序模型,从多个角度对检索到的内容进行排序,感觉类似于模型融合的作用

文本问答Promopt优化

  • QA和Instruction的区别与联系

    QA是指一问一答的形式,通常是用户提问,模型给出回答。而Instruction则源自于PromptEngineering,将问题拆分为两个部分:Instruction用于描述任务,Input用于描述待处理的对象。

    问答(QA)格式的训练数据通常用于训练模型回答基于知识的问题,而指令(Instruction)格式的训练数据更适用于训练模型执行具体任务。例如,对于问题"请解释VC银翘片和双黄连口服液之间的区别"

    指令的形式可能使模型具有更好的泛化能力,因为它强调了任务的性质,而不仅仅是特定的输入。通常指令格式和问答格式可以相互转化。

    • 问答(QA)格式:

      指令(Instruction): 
      输入(Input):VC银翘片和双黄连口服液之间的区别是什么?

    • 指令(Instruction)格式:

      指令(Instruction):请解释下面两个药品之间的区别。
      输入(Input):VC银翘片和双黄连口服液。

  • query扩展:对于一个问题通常有多种问法,其分布往往呈现长尾分布,使用同义词对关键词进行关联,或者对问题进行改写,能在一定程度上解决漏召回问题。

unsetunset致谢unsetunset

感谢Coggle数据科学每个月组织课程学习。感谢学习群里的各位大佬帮忙答疑解惑。

 想要一起学习吗?添加下面👇微信  #

△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

与 36000+来自竞赛爱好者一起交流~

文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论