
导读:本文将分享行业搜索的相关技术和应用,主要包括三大部分:
行业搜索的背景
相关技术研究
行业搜索应用
分享嘉宾|谢朋峻 阿里巴巴达摩院 高级算法专家
编辑整理|桂洲 快手
出品社区|DataFun
01
1. 达摩院自然语言智能大图

NLP 数据、NLP 基础的词法、句法语义,分析的技术,以及上层 NLP 技术 行业应用:达摩院除了做基础研究之外,还赋能阿里集团,以及结合阿里云去赋能行业产业。赋能的很多行业场景都是搜索。

查询理解的分析:NLP 纠错、分词类目预测、实体识别词权重、 query 改写等技术 (离线)文档分析:NLP分析,质量效率的分析 检索排序:通过对 query 的分析以及文档的分析,来结合搜索引擎本身一些检索排序的机制,就能实现把两者桥接的目标。

sparse retrieval:传统的基于字或基于词去建立倒排索引,同时基于此去构建很多查询理解的一系列的能力,包括一些文本相关性排序等; dense retrieval:随着预训练语言模型的兴起,基于预训练底座来实现单塔、双塔模型,再结合向量引擎建立搜索机制。


传统 sparse retrieval 的关键词召回 dense retrieval 向量召回,个性化召回 粗排阶段:使用文本相关性(静态)分数来做过滤 精排阶段:相对复杂,会有相关性的模型,可能结合业务的效率模型(LTR)


召回:recall 或无结果率 排序:相关性、转化效率(贴近业务) 相关性:NDCG、MRR 转化效率:点击率、转化率

用户群体和 UV:消费互联网搜索 UV 非常大,产业互联网面向政企内部的员工; 搜索追求指标:消费互联网,除了追求搜得到、搜得准之外,还追求转化率高。在产业互联网,它更多是信息匹配的需求,所以关注召回跟相关性; 工程系统要求:消费互联网 QPS 的要求会很高,沉淀大量的用户行为,需要有实时日志分析、实时模型训练。产业互联网的要求会低一些; 算法方向:消费互联网会从 offline、nearline、online 的海量用户行为分析建模获得更大收益。产业互联网的用户行为稀疏,所以会更注重内容理解,比如 NLP 或者视觉的理解,研究方向包括 low resource、transfer learning。
02
相关技术研究















03
行业搜索应用




























|分享嘉宾|

谢朋峻
阿里巴巴达摩院 高级算法专家
谢朋峻,达摩院语言技术实验室高级算法专家,2012年南京大学硕士毕业后加入阿里,先后在淘宝搜索、电商知识图谱、达摩院NLP等团队工作10年。主要工作领域包括词法分析、信息抽取、信息检索、大数据数据挖掘等。目前在达摩院负责基础词法、语义匹配的技术研发和产品落地。同时是阿里云智能搜索产品、地址分析产品算法负责人。在ACL、EMNLP、NAACL等会议发表论文20余篇。
|《数据智能知识地图》下载|
上下滑动⬆️⬇️,查看《数据智能知识地图》预训练技术板块(点击可看大图),关注公众号“大话数智”,下载完整版知识地图


|商务合作|

|往期文章精选|
文章转载自DataFunTalk,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




