个人简介
大家好,我是黑桃。不会健身的程序猿不是一个好厨子。最近大模型一直很火,趁着过年时间充足正好充下电。希望以后能跟大家共同探讨,共同进步。

竞赛经历
第三届阿里云磐久智维算法大赛 亚军 2023 Novozymes Enzyme Stability Prediction 银牌 2021 Optiver Realized Volatility Prediction 铜牌 未来杯高校 AI 挑战赛——城市租金预测 Rank 5 科大讯飞-应用类型识别挑战赛 Rank 6 2019厦门国际银行“数创金融杯 Rank 6 Imagine Computing创新技术大赛赛道1:边缘云内容分发网络客户体验预测算法 Rank 12
本次学习的笔记地址
https://gitee.com/heitao5200/my_blog/tree/master/docs/%E7%BB%84%E9%98%9F%E5%AD%A6%E4%B9%A0/30days-of-ml/%E5%8A%A8%E6%89%8B%E5%AD%A6RAG
学习心得
一直在网上找一些大模型相关的课程,对大模型的概念,原理、langchain、RAG、微调都有了初步的了解。但是感觉还是不够深入,离具备工程化的能力还有一定差距。2月初刚好看到Coggle的RAG课程,学完感觉自己的RAG能力有进一步的提升。
下面谈谈本次学习的收获:
数据清洗的重要性
众所周知,数据对所有模型的重要性基本都是T0级别的,RAG当然也离不开干净的语料数据。 本次学习的数据来自于PDF,需要使用pdf读取器读取出来,其中数据包含很多特殊字符,还包含一些表格数据,另外不同的页面布局也会导致一些脏数据等。本次学习过程中对数据清洗之后,模型的效果有显著提升
文本划分
RAG 系统中将文档分割成多个文本块进行向量嵌入,目的是减少嵌入内容中的噪声,提高检索准确性。
每一个文本块需要尽可能包含完整且相关的主题信息,因此实施合适的分块策略尤为重要
文本多路召回与重排序
语义搜索可能无法提供最相关的结果。虽然可以找到语义上最相似的文档,但是语义上最相似并不一定最相关。
重排模型通过不同的排序模型,从多个角度对检索到的内容进行排序,感觉类似于模型融合的作用
文本问答Promopt优化
QA和Instruction的区别与联系
QA是指一问一答的形式,通常是用户提问,模型给出回答。而Instruction则源自于PromptEngineering,将问题拆分为两个部分:Instruction用于描述任务,Input用于描述待处理的对象。
问答(QA)格式的训练数据通常用于训练模型回答基于知识的问题,而指令(Instruction)格式的训练数据更适用于训练模型执行具体任务。例如,对于问题"请解释VC银翘片和双黄连口服液之间的区别"
指令的形式可能使模型具有更好的泛化能力,因为它强调了任务的性质,而不仅仅是特定的输入。通常指令格式和问答格式可以相互转化。
问答(QA)格式:
指令(Instruction):
输入(Input):VC银翘片和双黄连口服液之间的区别是什么?指令(Instruction)格式:
指令(Instruction):请解释下面两个药品之间的区别。
输入(Input):VC银翘片和双黄连口服液。query扩展:对于一个问题通常有多种问法,其分布往往呈现长尾分布,使用同义词对关键词进行关联,或者对问题进行改写,能在一定程度上解决漏召回问题。
致谢
感谢Coggle数据科学每个月组织课程学习。感谢学习群里的各位大佬帮忙答疑解惑。
# 想要一起学习吗?添加下面👇微信 #

每天大模型、算法竞赛、干货资讯





