论文投稿百科

基于文本相似度推荐系统毕业论文

发布时间:2024-07-07 13:36:47

基于文本相似度推荐系统毕业论文

论文重复率的高低直接影响到学校的论文通过情况,尽管每个学校论文重复率的要求不同,但有一点是肯定的,即论文重复率越低越好,论文的重复性也就是检测论文的相似度,如果论文内容和收录的论文相似度较高,就会有抄袭的嫌疑。近些年来,各学校对论文抄袭问题的重视程度越来越高,论文检测不通过就可能拿不到毕业证。那么怎么检测论文相似度?

1、选择论文检测系统

网上查找论文检测系统,选口碑好的,专业的论文检测系统,或者还可以咨询前学长学姐,他们用哪种论文检测系统,去参考他们给到的建议去选择系统。

2、注册账号

登录官网网站,注册帐号,登录账号进入论文检测中心,有的论文检测系统需要提前下载,按着系统说明首先下载系统,然后注册账号登录。

3、提交论文

登录账号后,找到提交论文的位置,将自己的论文复制或直接以文档形式提交论文。如果是收费论文检测系统,则需要在充值中心先进行充值。

4、查看论文检测报告

你提交论文10分钟后,论文检测系统一般会出一份论文检测报告。找到论文检测中心,找到论文检测报告,点击访问,查看检测报告。首先看检测相似度是否达到学校要求,如对学校的要求较高,再看标红字体修改建议,对标红字体内容进行关键字替换,改变句式等方式修改调整。

5、修改论文再次检测

修正后的论文经调整后,重新提交论文,再次进行检测,直至论文检测的相似性达到学校要求。

论文的相似度的检测是那些检测软件,根据对比中国知网万方数据库等等各大论文资源网对比之后得出来的检测结果。

大学毕业论文需要检测重复率,我们学校是以知网检测为主。下面,我们来看看怎样检测毕业论文相似度。

搜索【知网】,点击相关链接,如下图所示:

用手机号注册一个账号再登陆,如下图所示:

来到中国学术不端,网页拉下来,本科论文查重专用,点击注册,如下图所示:

然后把论文上传,点击【提交检测】,如果你是在晚上9点后提交的话,那么明天早上或下午才能知道结果,如果是下午检测的,可能2~5个小时知道,如果是老师检测的,马上就能知道,我就是晚上检测的,到明天还不知道,就请指导老师检测下,马上知道了。

一般先用免费的检测一下,然后再改一改,再用知网测就可以了。

现在大学要想顺利毕业,都要写毕业论文,如果毕业论文没有达到学校的要求标准,就会延迟答辩,无法顺利毕业。那么下面就和小编一起来了解一下论文的相似度检测如何检测? 毕业论文对于喜欢写作的学生来说会有一些困难,更何况对于不喜欢写作的学生来说,难度会更大。很多同学觉得论文难就难在论文检测这一环节上,因为论文重复率太高就达不到标准,而且论文降重的难度也很大。所以大家在把论文提交到学校之前,都会先找一些检测软件来检测论文的重复率,论文的相似性检测我们都是借助于论文检测系统,论文检测系统有自己独特的检测方法,我们只需把论文上传上去,论文检测系统就会把论文和自己的数据库中的资源一一对比,连续13个字重复这段话就被判定为重复,所以说论文检测的力度还是很大的,它是以13个字为基础的。 一般建议大家在前面查重时可以选择Papefree这个免费的论文检测系统,这个软件安全可靠,检测出的重复率也比较严格,我们还可以根据查重报告来降低论文的重复,可以边修改边检测真的很方便。 毕业论文对毕业生来说真的很重要,所以学生不应该认真对待事情,而应该用心去完成,多从自己的角度去思考,这样也可以有效地避免和别人的论文太相似。

论文检测相似度系统

可以看自己的论文相似度的软件包括:papercrazy、蚁小二、维普检测、万方检测、中国知网等。

1、中国知网

知网是国家知识基础设施的概念,是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目。中国知网CNKI由清华大学、清华同方发起,始建于1999年6月,是国内公认的最全的论文收录平台,查重结果的权威性首屈一指。

作为主流查重工具,中国知网的“学术不端文献检测系统”从网站首页右下角进入,支持大学生、研究生论文检测,科研成果检测,图书专著检测,具备Amlc查重系统。

2、万方

万方数据库由万方数据公司开发,是一个涵盖期刊、会议纪要、论文、学术成果、学术会议论文的大型网络数据库,也是和中国知网齐名的专业学术数据库。其《万方期刊》集纳了70多个类目共7600种的科技类期刊全文;

《中国学术会议论文全文数据库》是国内唯一的学术会议文献全文数据库;《中国企业、公司及产品数据库》的信息全年100%更新,提供多种形式的载体和版本。

3、维普

论文查重软件网页版,国内权威的论文查重平台之一,于2000年建立,现已成为国际著名的中文专业信息服务网站。维普现可提供论文检测、报告下载、报告验真、机构用户检测、毕业论文管理、作业管理等服务,它采用海量论文动态语义跨域识别加指纹对比基数,能稳定、准确地检测到文章中存在的抄袭和不当引用现象,致力于维护学术诚信,杜绝学术不端。

4、PaperPass

PaperPass诞生于2007年,是最著名的中文文献相似度比对系统之一,现已发展成为一个权威、可信赖的中文原创性检查和预防剽窃的在线网站。

其对比库由超过9000万的学术期刊和学位论文,以及数个互联网网页数据库组成,检测范围涵盖所有中文类别,如经济学、法学、文学、医学、军事学等。系统采用了自主研发的动态指纹越级扫描检测技术,检测速度快、精度高,市场反映良好。

5、PaperYY

免费论文查重软件,由武汉亿次源信息技术有限公司推出,是市面上为数不多以互联网思维运营的免费查重平台,也是全网唯一拥有三端(电脑端/移动端/微信小程序端)的免费查重软件。PaperYY不仅提供查重服务,还能提供专业的全套论文解决方案,是首款能解决问题的专业论文服务系统,每年800万左右毕业生中有约500万使用PaperYY系统解决论文问题。

目前免费论文查重软件比较多,部分高校定稿查重系统是知网查重及维普查重前期初稿检测一般使用一下部分查重软件(适合前期初稿检测):

PaperFree论文查重软件通过海量数据库对提交论文进行对比分析,准确地查到论文中的潜在抄袭和不当引用,实现了对学术不端行为的检测服务;

PaperTime开启真正免费论文查重时代首家独创同步在线改重,实时查重;边修改边检测,修改哪里检测哪里;享受智能查重带来的美妙体验。

从开题到最后发表一篇论文需要很多时间和精力。如果你想顺利通过大学或杂志的查重,你必须提前进行论文检测,但自检的查重费用需要自费。为了节约检测费用,我们会找一些免费查重软件进行自检,那么免费论文查重检测软件都有哪些? 一、免费论文查重软件。 1.学校内部查重系统: 学校一般会提供内部的论文查重系统,并且提供1-2次免费查重机会,学校内部查重系统查重率是最准确,也是最权威的。内部查重系统是不对外开放的,我们校外很难找到查重入口。 论文查重软件:学校提供的几次免费查重机会往往是不够的。这时我们可以选择Paperfree查重软件,新用户可以获取免费试用机会,而用户亦可透过参与活动,免费使用转发字数。 3.其免费查重系统软件:大学生在撰写毕业论文时,学校和导师会推荐免费查重软件。不同学校推荐的软件不同,我们以学校通知为准。 二、免费论文查重软件怎么选择。 虽然目前市面上有自己很多企业提供免论文查重检测系统软件,我们在选择的时候要注意其安全性。因此,在选择免费论文查重软件时,最好不要使用不安全的软件,不仅查重结果没有参考性,而且你的论文可能会因为小损失而泄露。通过询问学长学姐或自己的导师,我们可以选择一个真正可靠的免费论文查重检测系统软件。

目前免费论文检测网站比较多,主流的查重网站有知网学术不端查重、维普查重、万方查重,高校都有1-2次的免费查重机会,具体得看各个学校的要求而定,paper系列主流查重有PaperFree、PaperPass、PaperTime、Paperok等,以上几家paper系列都是跟wps、百度学术、360学术等都有合作,感兴趣的同学可以搜一下,每个学术平台免费查重优惠也是不一样,接下来我们逐步一一列举上面所提的查重软件具体情况:

知网查重

中国知网,始建于1999年6月,是中国核工业集团资本控股有限公司控股的同方股份有限公司旗下的学术平台。知网是国家知识基础设施(National Knowledge Infrastructure,NKI)的概念,由世界银行于1998年提出。CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目。

维普查重

维普论文检测系统,由重庆泛语科技有限公司自主研发,采用先进的海量论文动态语义跨域识别加指纹比对技术,通过运用云检测服务部署使其能够快捷、稳定、准确地检测到文章中存在的抄袭和不当引用现象,实现了对学术不端行为的检测服务。

万方查重

万方查重是北京万方数据股份有限公司旗下唯一独立运营的产品。万方查重致力于提供多样化的科技信息服务。公司以客户为导向,依托强大的数据采集能力,应用先进的信息处理技术和检索技术,为科技界、企业界和政府部门提供高质量的信息资源产品。并陆续推出万方查重、万方毕业论文管理系统、万方VR虚拟教育平台等一系列产品。

PaperFree

PaperFree是中英文及多语种论文相似度检测系统,特色机器人降重、在线改重功能,可以实现自动降低文章相似比例,并且在同一界面上一边修改一边检测,即时反馈查重结果,使用户体验、查重效率翻倍。PaperFree为用户人性化地完美实现了“首次免费论文检测―高效在线改重―智能机器人降重―全面再次论文检测―顺利通过论文检测“的整个全过程。

PaperPass

PaperPass是全球首个中文文献相似度比对系统,已经发展成为一个中文原创性检查和预防剽窃的在线网站。一直致力于学术论文的检测。

PaperTime

PaperTime是在“教育大数据联盟平台”的基础上,优先获取教育数据资源,采用多级指纹对比技术及深度语义识别技术,实现“实时查重、在线修改、同步降重”一步到位。

Paperok

PaperOK论文查重,基于大数据海量学术文献资源及互联网资源,坚持客观、公正、精准、全面的原则,对学术不端行为进行管理,为用户提供客观详实的查重报告,为出版、科研、学术等提供支持!

关于推荐系统的毕业论文

论文: 论文题目:《Neural Graph Collaborative Filtering》 论文地址: 本论文是关于图结构的协同过滤算法,在原始的矩阵分解和基于深度学习的方法中,通常是通过映射描述用户(或物品)的现有特征(例如ID和属性)来获得用户(或物品)的嵌入。从而利用user和item的embedding进行协同召回。但是作者认为这种方法的固有缺点是:在user与item的interaction数据中潜伏的 协作信号(collaborative signal) 未在嵌入过程中进行编码。这样,所得的嵌入可能不足以捕获协同过滤效果。 让我们一起来看一下本论文是怎么利用数据中潜伏的协作信号的吧。 推荐算法被广泛的运用在各个领域中,在电商领域,社交媒体,广告等领域都发挥着至关重要的作用。推荐系统的核心内容就是根据用户以前的购买和点击行为来评估用户对一个物品的喜爱程度,从而针对每个用户进行个性化推荐。协同过滤算法认为历史行为相似的用户之间的兴趣是相同的,所以给用户推荐的是同类型用户的爱好,也就是UserCF,而ItemCF给用户推荐的是跟历史行为相近的物品。 传统的协同过滤方法要么是基于矩阵分解,要么是基于深度学习的,这两种方法都忽略了一个非常关键的信息---user和item交互的协作信号,该信号隐藏在user和item的交互过程中。原始的协同过滤方法忽略了这种信息,所以在进行user 和 item representation时就不足以较好的进行embedding。 本论文通过将用户项交互(更具体地说是二分图结构)集成到embedding过程中,开发了一个新的推荐框架神经图协同过滤(NGCF),该框架通过在其上传播embedding来利用user-item图结构。这种方法在用户项目图中进行高阶连通性的表达建模,从而以显式方式将协作信号有效地注入到embedding过程中。 在介绍模型之前先来讲解一下什么是useritem interaction以及什么是高阶的useritem interaction。 我们先看左边的图,这个图就是useritem interaction,u1是我们待推荐的用户,用双圆圈表示,他交互过的物品有i1,i2,i3。在看右边这个树形结构的图,这个图是u1的高阶interaction图,注意只有l > 1的才是u1的高阶连接。观察到,这么一条路径,u1 ← i2 ← u2,指示u1和u2之间的行为相似性,因为两个用户都已与i2进行了交互。而另一条更长的路径,u1←i2←u2←i4暗示u1可能会点击i4,因为他的相似用户u2之前已经购买过i4。另一方面,用户u1在l = 3这一层会更倾向于i4而不是i5,理由是i4到u1有两条路径而i5只有一条。 当然这种树结构是不可能通过构建真正的树节点来表示的,因为树模型比较复杂,而且结构很大,没法对每个用户构建一个树,这样工作量太大了。那么怎么设计模型结构可以达到跟这个high-order connectivity的效果呢,这个就要运用到神经网络了。通过设计一个embedding propagation layer来表示这种embedding 在每个层之间的传递。 还是拿上面那张图举例子,堆叠两层可捕获u1←i2←u2的行为相似性,堆叠三层可捕获u1←i2←u2←i4的潜在推荐以及信息流的强度(由层之间的可训练权重来评估),并确定i4和i5的推荐优先级。 这个跟传统的embedding是一样的,都是对原始的userID和itemID做embedding,跟传统embedding不同的地方是,在我们的NGCF框架中,我们通过在用户-项目交互图上传播embedding来优化embedding。 由于embedding优化步骤将协作信号显式注入到embedding中,因此可以为推荐提供更有效的embedding。 这一层是本文的核心内容,下面我们来进行详细的解读。 从直观上来看,用户交互过的item会给用户的偏好带来最直接的依据。类似地,交互过某个item的用户可以视为该item的特征,并可以用来衡量两个item的协同相似性。 我们以此为基础在连接的用户和项目之间执行embedding propogation,并通过两个主要操作来制定流程:消息构建和消息聚合。 Message Construction(消息构建) 对于连接的user-item对(u,i),我们定义从i到u的消息为: 其中ei是i的embedding,eu是u的embedding,pui是用于控制每次传播的衰减因子,函数f是消息构建函数,f的定义为: 其中W1和W2用来提取有用的embedding信息,可以看到W2控制的i和u直接的交互性,这使得消息取决于ei和eu之间的亲和力,比如,传递更多来自相似项的消息。 另一个重要的地方是Nu和Ni,pui = 1/ 。Nu和Ni表示用户u和item i的第一跳邻居。 从表示学习的角度来看,pui反映了历史item对用户偏好的贡献程度。 从消息传递的角度来看,考虑到正在传播的消息应随路径长度衰减,因此pui可以解释为折扣因子。 Message Aggregation 聚合方法如下 : 其中 表示在第一嵌入传播层之后获得的用户u的表示。激活函数采用的是leakyrelu,这个函数适合对pos和neg信号进行编码。 另一个重要的信息是 ,它的定义如下: 这个信息的主要作用是保留原始的特征信息。 至此,我们得到了 ,同样的方法,我们也能获得 ,这个都是first order connectivoty的信息。 根据前面的计算方式,我们如果将多个Embedding Propagation Layers进行堆叠,我们就可以得到high order connectivity信息了: 计算方式如下: 当我看到这里的时候,我的脑子里产生了一个大大的疑惑,我们在计算第l层的eu和ei时都需要第l-1层的信息,那么我们怎么知道ei和eu在第l层是否存在呢?也就是说出现u侧的总层数l大于i侧总层数的时候,我们如何根据第l-1层的ei来计算第l层的e呢?经过思考,我感觉应该是这样的,训练样本应该是一条path,也就是这个例子是u1 ← i2 ← u2 ← i4这条path,所以可以保证u1跟i4的层数l是一样的,所以不存在上面那个层数不匹配的问题。 ps:看到后面的实验结果才知道L是固定的所以每一层都不会缺失。 还有一个就是,不同层之间的W是不一样的,每一层都有着自己的参数,这个看公式就知道,理由就是我们在提取不同层信息的时候需要不同的W进行信息提取。 另一个疑惑是pui到底是不是每一个l层都一样?这里看公式好像就是指的是第一跳的Nu和Ni进行就计算的结果。 这部分内容是为了在进行batch训练的时候进行矩阵运算所推导的数学过程,其实跟之前我们讲的那个过程在数学上的计算是完全一样的,你想象一下,如果不用矩阵进行运算,在训练过程中要如何进行这么复杂的交互运算。 当进行了l层的embedding propagation后,我们就拥有了l个eu和l个ei,我们将他们进行concate操作: 这样,我们不仅可以通过嵌入传播层丰富初始嵌入,还可以通过调整L来控制传播范围。 最后,我们进行内积计算,以评估用户对目标商品的偏好: 采用的是pair-wise方式中的bpr loss:

论文: 论文题目:《Multi-Interest Network with Dynamic Routing for Recommendation at Tmall》 论文地址: 前面讲的论文大部分都是关于排序的算法,mind作为天猫商城召回阶段的算法,还是很值得阅读的。 主流的推荐系统一般都分为matching(召回)和rangking(排序)两个阶段,不管在哪个阶段,都要学习和表示用户的兴趣向量。因此,最关键的能力是为任一阶段建模并得到能代表用户兴趣的向量。现有的大多数基于深度学习的模型都将一个用户表示为一个向量,如YoutubeDNN那篇论文,不足以捕获用户兴趣的不断变化的特点。基于以上原因,天猫提出了Mind方法,通过不同的视角来解决这个问题,并且用不同的向量来表示从用户不同方面的兴趣。 天猫商城也是分为了召回和排序两个阶段,召回阶段的主要目标就是从亿级别的商品库中筛选出千级别的候选物品给排序阶段使用。在天猫场景下,用户每天都要与成百上千的商品发生交互,用户的兴趣表现得多种多样。如下图所示,不同的用户之间兴趣不相同,同时同一个用户也会表现出多样的兴趣: 现在主流的召回阶段用到的召回算法要么是基于协同过滤的算法,要么是基于embedding召回的方法,但是这两个方法都有缺陷。协同过滤算法有着稀疏性和计算存储瓶颈方面的缺点,embedding的向量召回方法也有着几个缺点,一个是单一的向量无法准确表达出用户多种多样的兴趣,除非把这个向量长度变得特别大,还有一个就是,只有一个embedding会造成一定的头部效应,召回的结果往往是比较热门领域的商品(头部问题),对于较为小众领域的商品,召回能力不足,也就是更容易造成马太效应。 正如我们在第一段话中阐述的那样,如果单个兴趣向量没法做到将所有的用户兴趣点覆盖,那么就多搞几个向量,几个向量同时来表示用户的兴趣点不就行了吗?事实证明这么做确实是可以的,而且天猫也通过这种方法大大提高了召回的效果。 简单的先来看一下这个模型的架构,还是浓浓的阿里味,不管是item还是user在生成属于自己的向量的时候都会加上side information,这也是跟din,dien中一样传承下来的东西。整个模型关键的部分就在于这个Multi-Interest Extractor Layer层,后面我们就重点来讲一下这个层。 召回阶段的目标是对于每个用户u∈U的请求,从亿级的商品池I中,选择成百上千的符合用户兴趣的商品候选集。每条样本可以表示成三元组(Iu,Pu,Fi),其中Iu是用户u历史交互过的商品集合,Pu是用户画像信息,比如年龄和性别,Fi是目标商品的特征,如商品ID、商品品类ID。 那么MIND的核心任务是将用户相关的特征转换成一系列的用户兴趣向量: 接下来就是item的embedding了: 说白了f函数就是个embedding+pooling层。 我们有了用户的兴趣向量 和物品向量e后,就可以通过如下的score公式计算得到topN的商品候选集: 这个score的计算过程过其实是对这K个向量分别计算出一个分数然后取最大对那个。有了每个用户的兴趣向量后,我们就能对所有对item求一个分数,这样直接取topN就可以得到N个候选物品了。 这一层跟我们之前介绍的论文din,dien中的操作是类似的。在user embedding中,输入部分包括user_id,还包括gender,city等用户画像信息,分别做完embedding后直接concat起来就得到用户的embedding。跟user侧不同的item embedding则是采用pooling操作来得到item embedding,将商品ID、品牌ID、店铺ID分别做embedding后再用avg pooling。 这部分就是整个mind最关键的地方了,下面会进行详细讲解。 我们认为,通过一个表示向量表示用户兴趣可能是捕获用户的多种兴趣的瓶颈,因为我们必须将与用户的多种兴趣相关的所有信息压缩到一个表示向量中。 因此,关于用户的不同兴趣的所有信息混合在一起,从而导致在匹配阶段的项目检索不准确。所以,mind采用了多个兴趣向量来表示用户的不同兴趣。 通过这种方式,可以在召回阶段分别考虑用户的不同兴趣,从而可以针对兴趣的各个方面进行更准确的检索。 Multi-Interest Extractor Layer,借鉴的是Hiton提出的胶囊网络。有关胶囊网络,下面的图可以帮助你快速理解(源于知乎: ): 可以看到,胶囊网络和传统的神经网络较为类似。传统神经网络输入一堆标量,首先对这堆标量进行加权求和,然后通过非线性的激活函数得到一个标量输出。而对胶囊网络来说,这里输入的是一堆向量,这里的计算是一个迭代的过程,每次对输入的向量,先进行仿射变换,然后进行加权求和,最后用非线性的squash操作得到输出向量,可以看到胶囊网络的的输入跟输出还是跟传统DNN不一样的。 但是,针对图像数据提出的原始路由算法不能直接应用于处理用户行为数据。 因此,我们提出了“行为到兴趣(B2I)”动态路由,用于将用户的行为自适应地汇总到兴趣表示向量中,这与原始路由算法在三个方面有所不同。 1.共享双向线性映射矩阵 在胶囊网络中,每一个输入向量和输出向量之间都有一个单独的双向映射矩阵,但是MIND中,仿射矩阵只有一个,所有向量之间共享同一个仿射矩阵。 主要原因:一方面,用户行为的长度是可变的,天猫用户的行为范围是几十到几百,因此固定双线性映射矩阵的使用是可推广的,同时也减少了大量的参数。 另一方面,我们希望兴趣胶囊位于相同的向量空间中,但是不同的双线性映射矩阵会将兴趣胶囊映射到不同的向量空间中。因此,映射的逻辑变成了: 其中ei是用户行为中的item i的embedding,uj是兴趣胶囊j的向量。 2. 随机初始化胶囊网络的权值 在原始的胶囊网络中,映射矩阵是初始化为0的,但是这样会导致几个问题。将路由对数初始化为零将导致相同的初始兴趣胶囊。从而,随后的迭代将陷入一种情况,在这种情况下,不同的关注点胶囊始终保持相同。这跟我们的意图是不一致的,我们希望生成不同的用户兴趣向量。因此,我们在初始化的时候,让胶囊网络中权重的初始化由全部设置为0变为基于正太分布的初始化。 这里随机初始化的是bij而不是S,也就是胶囊映射逻辑矩阵,S是双向映射矩阵,不要搞混了。 3. 动态的用户兴趣数量 由于不同用户拥有的兴趣胶囊数量可能不同,因此我们引入了启发式规则,用于针对不同用户自适应地调整K的值。 具体来说,用户u的K值由下式计算: 动态的调整会让那些兴趣点较少的用户节省一部分计算和存储资源。 整个Multi-Interest Extractor Layer的计算过程如下: 看到这里我有个疑惑,在于算法的第7点,我们的 是用正太分布初始化的矩阵 跟双向仿射变化后的向量相加的结果,这一点我在论文中并没有得到很好的理解,也就是说,本来 是全零的,现在是用标准正态分布初始化后在去跟双向映射完的向量叠加吗? 还有一个疑问就是,针对每一个j,我们利用所有的behavior的i计算得到一个向量uj,其实感觉应该就是在bij的计算上是不同的,只有bij的计算不同才会产生不同的wij,这样的话也就是说每一轮的bij都是有上一轮的结果来生成的意思? 关于这两点我还是没能搞清楚,以我现在已有的知识来看,每次生成uj后都会利用整个uj去生成下一个bij,跟dcn里面的cross network有点类似,但是说不上来是为什么这么做,可能是这样计算保持来序列计算的特性。 从图中我们也可以清楚的看出来,通过Multi-Interest Extractor Layer,我们得到了多个用户向量表示。接下来,每个向量与用户画像embedding进行拼接,经过两层全连接层(激活函数为Relu)得到多个用户兴趣向量表示。每个兴趣向量表征用户某一方面的兴趣。 我们在前面获得了多个用户的兴趣向量,那么该如何知道这些兴趣向量中哪些是重要的,哪些是可以忽视的呢?这时候attention就派上了用场,正如我们在din中对用户历史行为中的每个item计算weight一样,我们在这个地方也构建一个一个attention网络,用来计算不同兴趣点的weight。 看一下上面的attention网络在结合一下整个mind的模型结构不难得出,这个attention网络的q是候选item的embedding,k,v都是用户的兴趣向量。 attention的计算公式为: 其中,除了计算vu跟ei的内积意外,mind还对这个内积进行了指数运算,这个p值起到了一个平滑对作用,到p接近0的时候,所有的weight是相近的,意味着每个兴趣点都会被关注到。到p大于1的时候,有些weight就会变得很大,而有些就会变得很小,相当于加强了跟candidate item强相关的兴趣点的权值,削弱了弱相关兴趣点的权值,此时更类似于一种hard attention,即直接选择attention score最大的那个向量。实验也证明了,hard attention的方法收敛得更快。 通过label attention网络,我们得到了代表用户u的兴趣向量 ,有了这个向量,我们就可以计算用户u点击item i的概率了,计算方式如下: 目标函数为: 这个L不是损失函数,可以理解为极大似然函数,我们的目标就是让这个东西最大。 当然,在一个具有亿级别item的网站中,我们是不会采用原始的softmax操作的,跟在skip gram中的sample softmax类似,mind也采用了sample softmax的做法,大大减少了运算量。 而在serving阶段,只需要计算用户的多个兴趣向量,然后每个兴趣向量通过最近邻方法(如局部敏感哈希LSH)来得到最相似的候选商品集合。我们只需要输入用户的历史序列和画像信息,就可以得到用户的兴趣向量,所以当用户产生了一个新的交互行为,MIND也是可以实时响应得到用户新的兴趣向量。这里相当于把label attention舍弃掉了,直接用剩下的部分来得到用户的兴趣向量。 serving阶段跟training阶段对于用户的兴趣向量的处理是不一样的,在serving阶段,由于我们有多个兴趣向量,所以score的计算方式就变成了取最大的那个: mind选择了跟他比较相近的YoutubeDNN进行对比,对比结果如下: 此外,论文还提到了DIN,在获得用户的不同兴趣方面,MIND和DIN具有相似的目标。 但是,这两种方法在实现目标的方式和适用性方面有所不同。 为了处理多样化的兴趣,DIN在item级别应用了注意力机制,而MIND使用动态路由生成兴趣,并在兴趣级别考虑了多样性。 此外,DIN着重于排名阶段,因为它处理成千或者万级别的item,但是MIND取消了推断用户表示和衡量user-item兼容性的过程,从而使其在匹配阶段适用于数十亿个项目。

深度推荐系统论文模板

综述类: 1、Towards the  Next Generation of Recommender Systems: A Survey of the State-of-the-Art and  Possible Extensions。最经典的推荐算法综述 2、Collaborative Filtering Recommender Systems. JB Schafer 关于协同过滤最经典的综述 3、Hybrid Recommender Systems: Survey and Experiments 4、项亮的博士论文《动态推荐系统关键技术研究》 5、个性化推荐系统的研究进展.周涛等 6、Recommender systems L Lü, M Medo, CH Yeung, YC Zhang, ZK Zhang, T Zhou Physics Reports 519 (1), 1-49 ( ) 个性化推荐系统评价方法综述.周涛等 协同过滤: factorization techniques for recommender systems. Y Koren collaborative filtering to weave an information Tapestry. David Goldberg (协同过滤第一次被提出) Collaborative Filtering Recommendation Algorithms. Badrul Sarwar , George Karypis, Joseph Konstan .etl of Dimensionality Reduction in Recommender System – A Case Study. Badrul M. Sarwar, George Karypis, Joseph A. Konstan etl Memory-Based Collaborative Filtering. Kai Yu, Anton Schwaighofer, Volker Tresp, Xiaowei Xu,and Hans-Peter Kriegel systems:a probabilistic analysis. Ravi Kumar Prabhakar recommendations: item-to-item collaborative filtering. Greg Linden, Brent Smith, and Jeremy York of Item-Based Top- N Recommendation Algorithms. George Karypis Matrix Factorization. Ruslan Salakhutdinov Decompositions,Alternating Least Squares and other Tales. Pierre Comon, Xavier Luciani, André De Almeida 基于内容的推荐:   Recommendation Systems. Michael J. Pazzani and Daniel Billsus 基于标签的推荐:   Recommender Systems: A State-of-the-Art Survey. Zi-Ke Zhang(张子柯), Tao Zhou(周 涛), and Yi-Cheng Zhang(张翼成) 推荐评估指标:   1、推荐系统评价指标综述. 朱郁筱,吕琳媛 2、Accurate is not always good:How Accuacy Metrics have hurt Recommender Systems 3、Evaluating Recommendation Systems. Guy Shani and Asela Gunawardana 4、Evaluating Collaborative Filtering Recommender Systems. JL Herlocker 推荐多样性和新颖性:   1. Improving recommendation lists through topic diversification. Cai-Nicolas Ziegler Sean M. McNee, Joseph Lausen Fusion-based Recommender System for Improving Serendipity Maximizing Aggregate Recommendation Diversity:A Graph-Theoretic Approach The Oblivion Problem:Exploiting forgotten items to improve Recommendation diversity A Framework for Recommending Collections Improving Recommendation Diversity. Keith Bradley and Barry Smyth 推荐系统中的隐私性保护:   1、Collaborative Filtering with Privacy. John Canny 2、Do You Trust Your Recommendations? An Exploration Of Security and Privacy Issues in Recommender Systems. Shyong K “Tony” Lam, Dan Frankowski, and John Ried. 3、Privacy-Enhanced Personalization. Alfred 4、Differentially Private Recommender Systems:Building Privacy into the  Netflix Prize Contenders. Frank McSherry and Ilya Mironov Microsoft Research,  Silicon Valley Campus 5、When being Weak is Brave: Privacy Issues in Recommender Systems. Naren Ramakrishnan, Benjamin J. Keller,and Batul J. Mirza 推荐冷启动问题:   Boltzmann Machines for Cold Start Recommendations. Asela Preference Regression for Cold-start Recommendation. Seung-Taek Park, Wei Chu Cold-Start Problem in Recommendation Systems. Xuan Nhat and Metrics for Cold-Start Recommendations. Andrew I. Schein, Alexandrin P opescul, Lyle H. U ngar bandit(老虎机算法,可缓解冷启动问题):  1、Bandits and Recommender Systems. Jeremie Mary, Romaric Gaudel, Philippe Preux 2、Multi-Armed Bandit Algorithms and Empirical Evaluation 基于社交网络的推荐:   1. Social Recommender Systems. Ido Guy and David Carmel A Social Networ k-Based Recommender System(SNRS). Jianming He and Wesley W. Chu Measurement and Analysis of Online Social Networks. Referral Web:combining social networks and collaborative filtering 基于知识的推荐:   1、Knowledge-based recommender systems. Robin Burke 2、Case-Based Recommendation. Barry Smyth 3、Constraint-based Recommender Systems: Technologies and Research Issues. A. Felfernig. R. Burke 其他:   Trust-aware Recommender Systems. Paolo Massa and Paolo Avesani

论文: 论文题目:《Multi-Interest Network with Dynamic Routing for Recommendation at Tmall》 论文地址: 前面讲的论文大部分都是关于排序的算法,mind作为天猫商城召回阶段的算法,还是很值得阅读的。 主流的推荐系统一般都分为matching(召回)和rangking(排序)两个阶段,不管在哪个阶段,都要学习和表示用户的兴趣向量。因此,最关键的能力是为任一阶段建模并得到能代表用户兴趣的向量。现有的大多数基于深度学习的模型都将一个用户表示为一个向量,如YoutubeDNN那篇论文,不足以捕获用户兴趣的不断变化的特点。基于以上原因,天猫提出了Mind方法,通过不同的视角来解决这个问题,并且用不同的向量来表示从用户不同方面的兴趣。 天猫商城也是分为了召回和排序两个阶段,召回阶段的主要目标就是从亿级别的商品库中筛选出千级别的候选物品给排序阶段使用。在天猫场景下,用户每天都要与成百上千的商品发生交互,用户的兴趣表现得多种多样。如下图所示,不同的用户之间兴趣不相同,同时同一个用户也会表现出多样的兴趣: 现在主流的召回阶段用到的召回算法要么是基于协同过滤的算法,要么是基于embedding召回的方法,但是这两个方法都有缺陷。协同过滤算法有着稀疏性和计算存储瓶颈方面的缺点,embedding的向量召回方法也有着几个缺点,一个是单一的向量无法准确表达出用户多种多样的兴趣,除非把这个向量长度变得特别大,还有一个就是,只有一个embedding会造成一定的头部效应,召回的结果往往是比较热门领域的商品(头部问题),对于较为小众领域的商品,召回能力不足,也就是更容易造成马太效应。 正如我们在第一段话中阐述的那样,如果单个兴趣向量没法做到将所有的用户兴趣点覆盖,那么就多搞几个向量,几个向量同时来表示用户的兴趣点不就行了吗?事实证明这么做确实是可以的,而且天猫也通过这种方法大大提高了召回的效果。 简单的先来看一下这个模型的架构,还是浓浓的阿里味,不管是item还是user在生成属于自己的向量的时候都会加上side information,这也是跟din,dien中一样传承下来的东西。整个模型关键的部分就在于这个Multi-Interest Extractor Layer层,后面我们就重点来讲一下这个层。 召回阶段的目标是对于每个用户u∈U的请求,从亿级的商品池I中,选择成百上千的符合用户兴趣的商品候选集。每条样本可以表示成三元组(Iu,Pu,Fi),其中Iu是用户u历史交互过的商品集合,Pu是用户画像信息,比如年龄和性别,Fi是目标商品的特征,如商品ID、商品品类ID。 那么MIND的核心任务是将用户相关的特征转换成一系列的用户兴趣向量: 接下来就是item的embedding了: 说白了f函数就是个embedding+pooling层。 我们有了用户的兴趣向量 和物品向量e后,就可以通过如下的score公式计算得到topN的商品候选集: 这个score的计算过程过其实是对这K个向量分别计算出一个分数然后取最大对那个。有了每个用户的兴趣向量后,我们就能对所有对item求一个分数,这样直接取topN就可以得到N个候选物品了。 这一层跟我们之前介绍的论文din,dien中的操作是类似的。在user embedding中,输入部分包括user_id,还包括gender,city等用户画像信息,分别做完embedding后直接concat起来就得到用户的embedding。跟user侧不同的item embedding则是采用pooling操作来得到item embedding,将商品ID、品牌ID、店铺ID分别做embedding后再用avg pooling。 这部分就是整个mind最关键的地方了,下面会进行详细讲解。 我们认为,通过一个表示向量表示用户兴趣可能是捕获用户的多种兴趣的瓶颈,因为我们必须将与用户的多种兴趣相关的所有信息压缩到一个表示向量中。 因此,关于用户的不同兴趣的所有信息混合在一起,从而导致在匹配阶段的项目检索不准确。所以,mind采用了多个兴趣向量来表示用户的不同兴趣。 通过这种方式,可以在召回阶段分别考虑用户的不同兴趣,从而可以针对兴趣的各个方面进行更准确的检索。 Multi-Interest Extractor Layer,借鉴的是Hiton提出的胶囊网络。有关胶囊网络,下面的图可以帮助你快速理解(源于知乎: ): 可以看到,胶囊网络和传统的神经网络较为类似。传统神经网络输入一堆标量,首先对这堆标量进行加权求和,然后通过非线性的激活函数得到一个标量输出。而对胶囊网络来说,这里输入的是一堆向量,这里的计算是一个迭代的过程,每次对输入的向量,先进行仿射变换,然后进行加权求和,最后用非线性的squash操作得到输出向量,可以看到胶囊网络的的输入跟输出还是跟传统DNN不一样的。 但是,针对图像数据提出的原始路由算法不能直接应用于处理用户行为数据。 因此,我们提出了“行为到兴趣(B2I)”动态路由,用于将用户的行为自适应地汇总到兴趣表示向量中,这与原始路由算法在三个方面有所不同。 1.共享双向线性映射矩阵 在胶囊网络中,每一个输入向量和输出向量之间都有一个单独的双向映射矩阵,但是MIND中,仿射矩阵只有一个,所有向量之间共享同一个仿射矩阵。 主要原因:一方面,用户行为的长度是可变的,天猫用户的行为范围是几十到几百,因此固定双线性映射矩阵的使用是可推广的,同时也减少了大量的参数。 另一方面,我们希望兴趣胶囊位于相同的向量空间中,但是不同的双线性映射矩阵会将兴趣胶囊映射到不同的向量空间中。因此,映射的逻辑变成了: 其中ei是用户行为中的item i的embedding,uj是兴趣胶囊j的向量。 2. 随机初始化胶囊网络的权值 在原始的胶囊网络中,映射矩阵是初始化为0的,但是这样会导致几个问题。将路由对数初始化为零将导致相同的初始兴趣胶囊。从而,随后的迭代将陷入一种情况,在这种情况下,不同的关注点胶囊始终保持相同。这跟我们的意图是不一致的,我们希望生成不同的用户兴趣向量。因此,我们在初始化的时候,让胶囊网络中权重的初始化由全部设置为0变为基于正太分布的初始化。 这里随机初始化的是bij而不是S,也就是胶囊映射逻辑矩阵,S是双向映射矩阵,不要搞混了。 3. 动态的用户兴趣数量 由于不同用户拥有的兴趣胶囊数量可能不同,因此我们引入了启发式规则,用于针对不同用户自适应地调整K的值。 具体来说,用户u的K值由下式计算: 动态的调整会让那些兴趣点较少的用户节省一部分计算和存储资源。 整个Multi-Interest Extractor Layer的计算过程如下: 看到这里我有个疑惑,在于算法的第7点,我们的 是用正太分布初始化的矩阵 跟双向仿射变化后的向量相加的结果,这一点我在论文中并没有得到很好的理解,也就是说,本来 是全零的,现在是用标准正态分布初始化后在去跟双向映射完的向量叠加吗? 还有一个疑问就是,针对每一个j,我们利用所有的behavior的i计算得到一个向量uj,其实感觉应该就是在bij的计算上是不同的,只有bij的计算不同才会产生不同的wij,这样的话也就是说每一轮的bij都是有上一轮的结果来生成的意思? 关于这两点我还是没能搞清楚,以我现在已有的知识来看,每次生成uj后都会利用整个uj去生成下一个bij,跟dcn里面的cross network有点类似,但是说不上来是为什么这么做,可能是这样计算保持来序列计算的特性。 从图中我们也可以清楚的看出来,通过Multi-Interest Extractor Layer,我们得到了多个用户向量表示。接下来,每个向量与用户画像embedding进行拼接,经过两层全连接层(激活函数为Relu)得到多个用户兴趣向量表示。每个兴趣向量表征用户某一方面的兴趣。 我们在前面获得了多个用户的兴趣向量,那么该如何知道这些兴趣向量中哪些是重要的,哪些是可以忽视的呢?这时候attention就派上了用场,正如我们在din中对用户历史行为中的每个item计算weight一样,我们在这个地方也构建一个一个attention网络,用来计算不同兴趣点的weight。 看一下上面的attention网络在结合一下整个mind的模型结构不难得出,这个attention网络的q是候选item的embedding,k,v都是用户的兴趣向量。 attention的计算公式为: 其中,除了计算vu跟ei的内积意外,mind还对这个内积进行了指数运算,这个p值起到了一个平滑对作用,到p接近0的时候,所有的weight是相近的,意味着每个兴趣点都会被关注到。到p大于1的时候,有些weight就会变得很大,而有些就会变得很小,相当于加强了跟candidate item强相关的兴趣点的权值,削弱了弱相关兴趣点的权值,此时更类似于一种hard attention,即直接选择attention score最大的那个向量。实验也证明了,hard attention的方法收敛得更快。 通过label attention网络,我们得到了代表用户u的兴趣向量 ,有了这个向量,我们就可以计算用户u点击item i的概率了,计算方式如下: 目标函数为: 这个L不是损失函数,可以理解为极大似然函数,我们的目标就是让这个东西最大。 当然,在一个具有亿级别item的网站中,我们是不会采用原始的softmax操作的,跟在skip gram中的sample softmax类似,mind也采用了sample softmax的做法,大大减少了运算量。 而在serving阶段,只需要计算用户的多个兴趣向量,然后每个兴趣向量通过最近邻方法(如局部敏感哈希LSH)来得到最相似的候选商品集合。我们只需要输入用户的历史序列和画像信息,就可以得到用户的兴趣向量,所以当用户产生了一个新的交互行为,MIND也是可以实时响应得到用户新的兴趣向量。这里相当于把label attention舍弃掉了,直接用剩下的部分来得到用户的兴趣向量。 serving阶段跟training阶段对于用户的兴趣向量的处理是不一样的,在serving阶段,由于我们有多个兴趣向量,所以score的计算方式就变成了取最大的那个: mind选择了跟他比较相近的YoutubeDNN进行对比,对比结果如下: 此外,论文还提到了DIN,在获得用户的不同兴趣方面,MIND和DIN具有相似的目标。 但是,这两种方法在实现目标的方式和适用性方面有所不同。 为了处理多样化的兴趣,DIN在item级别应用了注意力机制,而MIND使用动态路由生成兴趣,并在兴趣级别考虑了多样性。 此外,DIN着重于排名阶段,因为它处理成千或者万级别的item,但是MIND取消了推断用户表示和衡量user-item兼容性的过程,从而使其在匹配阶段适用于数十亿个项目。

系统推荐毕业论文

毕业设计管理信息系统学生选修课信息管理系统健康档案管理系统

你不需要考虑任何的问题,论文写好,你想查重的时候在淘宝上十块钱就可以查一次,你只有查一次,以后你就知道该注意哪里了。

计算机毕业论文题目推荐如下:基于SpringBoot的个性化学习系统设计与实现。基于web的疫情期间物资分配管理系统的设计与实现。基于python的成都市二手房数据可视化系统的设计 基于SpringBoot的电子秤串口称重系统的设计与实现 基于Java的疫情防控服务平台的设计与实现 基于Web的开源协会服务平台的设计与实现 基于ssm的汽车租赁平台的设计与开发

基于Java的同城临期视频平台的设计与开发。基于SpringBoot的协同过滤就业系统的设计与实现。基于SpringMVC的互联网招聘求职网站的设计与实现。基于SrpingBoot+react的资源登记分享网站的设计与实现。基于Springboot的在线教育平台设计与实现。基于Springboot的货物管理系统的设计与实现

基于Springboot的医疗管理系统的设计与实现。基于Springboot的校园快递管理平台的设计与实现。基于Springboot的博课系统的设计与实现。基于web应用的互助型旅游网站系统开发基于SpringBoot的沉浸式在线视频学习系统设计与实现。基于Springboot的预约挂号系统的设计与实现。基于python的新冠疫情数据分析系统的设计与开发。

CRM(客户服务中心)管理系统这个系统主要涉及到呼叫中心和售后服务的问题,在现在的很多行业中都会很多的用到,主要的功能有回访,维修,安装,客户管理等等,当然,也可以按照自己的需要,增加功能,开发技术也不算难,主要是业务的理解上面。比如说电器行业,内容问题就按照自己的需要和能力去做就可以了

相关百科
热门百科
首页
发表服务