搜索引擎的研究论文

4 搜索引擎在电子商务中的应用搜索引擎竞价之研究竞价排名产生的背景众多研究报告指出, 作为网络时代的指南针, 搜索引擎将在未来一段时间内成为互联网上的主流工具。而这又是一个商业利益充斥的时代, 无论是各商业机构还是搜索引擎本身都不可避免地要考虑经济利益: ①从商业网站的角度来看, 搜索引擎每次返回的检索结果集合太大, 需要分页显示。一般用户在浏览过程中很少会点击查看第3页以后的网页信息, 那么排名相对靠后的网站就很少有机会被浏览。而对于商业网站来说, 点击查看意味着巨大的商机, 没有点击浏览就会流失掉很多潜在客户。因此有一些商业网站宁愿选择付出一定价钱来购买排名靠前的机会, 这其实可以看作是商业网站的一种广告投资； ②从搜索引擎本身来看, 其自身也要追求一定的商业利润。特别是在互联网泡沫经济破灭之后, 各种Internet 服务营运商都开始纷纷寻找和发展赢利模式, 如E-mail开展收费服务。而作为网络第二大应用项目的搜索引擎, 则开始让一部分商业网站在检索结果集合中的排名靠前, 为它们进行广告宣传, 从而获得效益。这种收费方式更被业界誉为迄今为止互联网最成功的收费运营模式。搜索引擎中竞价排名的现状尽管对于竞价排名的定义, 众说纷纭, 但基本上都认为竞价排名(Pay Per Click)指的是客户为自己的网站页面购买在搜索引擎中的关键字排名, 而搜索引擎按点击(或时间段)对它们进行计费的一种服务。简单地说就是, 有一商业网站A为了取得关键词B在搜索引擎C中的第N位排名, 首先它需向搜索引擎C提出B的竞价排名服务申请, 由C对其网站进行审查, 然后C给出B的第N-1位和第N+1 位排名的价格, 当A交给C的服务费位于两者之间时并再次通过C 对其内容的审查后,A就将获得B在C中的第N位排名。当然若以后有其他商业网站出的服务费高于A的话, A的排名将会依次顺延。这种方法最早源于Overtune公司(原来的公司), 该公司已为这项服务申请了专利,不过现在各大搜索引擎基本上都已经开展该项服务。以百度为例。百度作为全球最大的中文搜索引擎、全球十大网站之一, 每天有超过1亿人次访问量, 覆盖了95%中国网民。百度在国内首创“竞价排名”的概念, 并且早在2001年10月就开始在国内市场上加以推广使用, 在中国申请了竞价排名的专利。现在百度的竞价排名服务在国内已广有影响, 正如百度方面所称,“竞价排名”经过四十多个月的市场培育, 已经成为中小企业最佳推广方式和营销利器。而越来越多的中小企业也受益于百度竞价排名, 对竞价排名逐渐产生了依赖感。尽管我国目前只有2 万余家国内企业使用搜索竞价的营销方式, 但借以创造出辉煌业绩的案例却屡见不鲜。例如淘宝网2003年5月成立以来采用搜索竞价服务, 在短短一年的时间内就在多个重量级别指标上勇超经营多年的易趣,创造了一年崛起的奇迹。目前, Google、雅虎、百度、新浪、搜狐等纷纷抢滩搜索竞价,巨大的潜力和经济效益使得各大搜索引擎开展的竞价排名服务已成为不可否认的事实。搜索引擎的营销搜索引擎已成企业营销沟通的重要手段据调查，大部分年销售额在500至1000万元人民币之间的企业，年度宣传费用均值为65万元人民币(即处在50-100万元之间)，其中投放在互联网上的费用均值为7万元人民币，所占总宣传费用比例略大于10%。这一比例远远超过国内企业广告费用分配的平均比例(3%以下)。上述调查显示，这类企业对网络营销的依赖程度在增强。任何企业都希望求生存，谋发展，希望获得消费者的认可。如今不再是“好酒不怕巷子深”的年代，面对无数的竞争者和海量的信息，把企业的产品和服务以及企业本身宣传出去，是企业经营活动必不可少的环节。如今多数企业面临铺天盖地的宣传广告中，企业如果不作广告，很难被消费者认知。但是，即使作了这样的广告也不能保证可以起到明显的宣传作用。广告费用的支出成为企业最不可控的部分。互联网的出现，直接让企业体会到了网络营销带来的便捷，有效地节约了企业的营销费用，提高了宣传的效用。相对传统媒体而言，网络传播比广播传播直观，比电视传播的驻留时间长，比户外广告的覆盖面大，比平面媒体的内容丰富。声、画、文的同步传播，立体而全面的传播方式，且持续时间长，加上良好的性价比，使网络传播成为企业宣传自身的主要途径之一。多数企业开始通过网站了解到自己的竞争对手的，多数企业拥有自己的网站，互联网已经成为许多企业最关注的媒体。同时互联网传递的信息之丰富，已经超过其他媒介的总和。因此企业也自然把营销推广的重任逐渐转移到互联网上。而传统的网络广告形式，尤其是在大型网站上的广告形式，由于其高昂的费用，仍旧对多数企业设置了极高的门槛，面对这种局面，网络搜索引擎配合关键词搜索排名的模式开始走到台前，它有效解决了推广费用问题，同时由于这些平台精准的人群筛选以及庞大的流量基础，用户的传播目标同样可以达到广告的预期效果，同时该类平台还提供了更多的沟通功能，方便用户直接找到目标群。搜索引擎在网络营销沟通中的作用在网络经济中，企业由于面临越来越激烈的生存挑战，怎样选择高效的营销沟通工具成为企业取胜的关键。搜索引擎由于其独功能特性，成为网络营销的有利工具。网络经济对企业的挑战.在网络经济下对注意力的争夺成为企业战略的重点。互联网的出现为人们提供了各种各样的信息，吸引注意力成为企业面临的一大挑战，企业的任务也不仅仅是把注意力吸引住，而且还需要把注意力保持住，也就是对消费者忠诚度的培育。在网络经济时代求生存的企业，忽略了公众和消费者的注意力就会削弱赢得更多市场份额的机会。企业有必要吸引和锁定消费者的注意力. (1)吸引注意力培养消费者的忠诚度.注意力是指客户对企业的关注、信任及忠诚。随着网络的发展，客户相对企业而言具有更大的主动性，客户的注意力开始作为一种资源，并受到重视。因此，企业需要不断满足客户的需求，以吸引其注意力。网络企业吸引顾客注意力的目的在于:获得更多的“点击数”，以便成为“知名站点”，然后开始发布企业广告，或销售产品、以赚取广告费或销售利润。传统的营销理论强调决策人能够设计适当的营销策略组合(即4P组合，Product Price Place Promotion)，就能够影响消费者的购买行为。而在网络时代，新的营销组合将围绕如何能更有效的吸引消费者注意力人手，就有了围绕4C理论的营销组合:①产品策略(Product)让位于研究消费者的需求(Consumer)。②.把研究消费者为满足其需求愿意付出的成本(Cost)作为定价(Price)策略的依据。③.选择渠道(Place)更加注重如何能提供给消费者便利(Convenience)。④抛开促销策略(Promotion)，立足于加强与消费者的联络(Contact)。信息接受者在习惯接受信息前，常常经过一个学习的过程:知道，明白，喜欢，行动，习惯。首先，信息接受者必须意识到网站的存在(知)；然后让浏览者明白网站的内容(明)，就是确定一个有利的切入点，确定网站的定位；这样，浏览者就会渐渐地对产品产生好感(喜)；如果网站与传统业务结合点选择得恰当的话，浏览者还会继而付诸行动(行)；如果能让行动者达到较高满意度的话，他们便慢慢培养出再购买的习惯(1M)。分析了浏览者的行为模式，能有助于网站计划者对网站内容上的选择，更有助于公司决策者决定网络营销在公司整体营销中的效用。 (2)网络营销的本质是吸引消费者注意力.网络营销从本质上来说，是如何在互联网浩瀚的信息海洋中，吸引目标受众的注意力，传播网站上的信息。在这一系列对网络浏览者的认知过程的分析中，第一步也是最重要的一步就是如何吸引他们的注意力。网络经济时代能使“注意力经济”的效益得以突出体现，正是因为在网络上，信息量是不断扩大的，而相比较之下，流览者的注意力才是稀缺的.所以，本质上来说，对注意力的争夺也就成了网络营的一个关键。搜索引擎增强了网站的吸引力有助于企业锁定目标消费者搜索引擎的应用可以让消费者直接搜索某商品，查询、比较商品在众多网上商店中的价格、介绍、评论等信息；既可直接进行网上购物，也可以在获得全方位的商品比较信息之后，在线下商店购买。尽管电子商务的味道相当浓郁，但网民普遍认为依托现有的搜索引擎服务，在确切获取有用信息方面确实有用，直接增加了消费者对所关注网站的注意力。专业化搜索引擎不仅能够满足用户的细化需求，而且精确的搜索结果满足了用户在线购物过程中希望能够直接了解对所查询目标的详细细节的要求。企业网站要想锁定目标消费者必须做到以下几点:第一，打造自己的品牌，注意力经济就是一种“品牌”战略。在网上，用户浏览网页的随意性较强，因此，企业在网上建立强大的品牌显得尤为重要。第二，数据库营销，利用企业建立的顾客数据库对顾客进行个性化销售，直达消费者的个性化需求。第三，一对一营销:企业为每一个不同的顾客提供“一对一”的不同服务。第四，虚拟社区营销:企业在网站上建立一个虚拟的社区，该社区可以集聚对某一问题感兴趣的顾客，企业通过这个社区可以进行有针对性的营销。用户在搜索引擎上进行信息查询时，主要看结果是否和自己的需求吻合。当我们使用一种智能跟踪用户检索行为的搜索引擎时，分析用户检索行为，建立用户消费模型；使用相关度反馈机制，让用户告诉搜索引擎哪些文档和自己需求相关(及其相关的程度)，哪些不相关，通过多次交互逐步求精，可以使用户直接准确的定位自己需要的信息，既实现了“一对一”营销，还能加深用户对网站印象，建立起企业的“品牌”效应，通过对用户搜索过程的存储，建立相关营销数据库，使用智能数据挖掘技术分析用户消费行为，有效解决了企业准确找到自己目标受众的问题，更好地锁定消费者。搜索引擎提供消费者所需的产品和服务提供顾客所需的产品和服务指的是消费者可以使用搜索引擎指向能提供让顾客满意的产品和服务的网站，获取自己的需求。由于网络营销是在虚拟市场下开展营销活动、实现企业营销目标，因此其必须满足网络消费者一些特有的特征，如专业化需求、个性化消费、对便利及乐趣的追求并存等。搜索引擎的搜索结果反映了消费者查找的信息，能及时准确的定位消费者提出的需求.在网络营销中，消费者处于主导地位，消费极具个性，不同的消费者对产品要求可能不一样。搜索引擎的运用让顾客和品服务提供者间的沟通变得通畅，一方面，顾客的需求很容易被发现，另一方面，产品或服务的提供容易得到市场响应。因此信息化、标准化、个性化的产品或服务将是网络营销产品的特点，很容易被消费者使用搜索引擎定位。搜索引擎应用的发展趋势在此，我们可以看到搜索引擎营销发展趋势：应用层次提升---搜索引擎营销将成为企业营销策略的一个组成部分，而不仅仅是购买搜索引擎广告或者搜索引擎优化；应用范围扩大——包括大型企业在内的各种规模的企业都将更加重视搜索引擎营销策略；应用深度增加——有效的搜索引擎营销策略需要专业化经营和管理；多方位竞争结构——搜索引擎营销市场的竞争，不仅表现在服务商争夺用户的竞争，也将表现在企业用户之间争夺营销资源的激烈竞争；搜索引擎营销产业化趋势——可能发展为一个相对完整的网络营销分支，也将产生更多的相关市场机会。上海电子商务行业协会秘书长裔勇告诉《IT 时代周刊》：“在未来几年内，电子商务网站最重要的特征是要具备优秀的搜索功能。如果消费者无法搜索到想要的商品，他们就会转移到其他网站。因此，拥有高质量的站内搜索工具对刺激在线零售商的销售收入是至关重要的。”

雅虎是目录式搜索引擎，是第一代搜索引擎，直到2004年才推出自己的基于关键词的搜索引擎，但是此时谷歌已经成为世界最大的搜索引擎，国内的百度也已经成为国内最大的搜索引擎。百度是基于关键词的全文索引搜索引擎，搜索结果按照权重计算结果排序。权值的赋予是按照关键词的出现频率和出现的位置，例如一个实词在一片文档或是网页里出现的次数多的必出现次数少的重要，相关性也更高，出现在标题里必出现在正文里权值要高等等，计算方法类似于谷歌的pagerank计算方法，只是权值赋值不同而已。搜索引擎的发展方向是越来越智能化和个性化，智能化会使用智能代理技术、神经网络技术、自然语言理解技术等等实现，个性化可以通过数据挖掘技术，例如对用户使用习惯的挖掘建立用户兴趣数据库等等来实现。总之智能化和个性化是发展方向，会向着百度提出的框计算的方向，只要在框里键入要求就会找到用户的结果。

这里有与计算机技术相关的英文论文，你可以用searchengine作为关键词搜索，应该有不少的。参考文献：

搜索引擎的文献论文

如下：

1、中国知网

网址：

中国知网是国内查找学术文献最齐全的网站，以收录核心期刊和专业期刊为主，权威、检索效果好、期刊类型比较综合、覆盖范围广。提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书等各类资源统一检索、统一导航、在线阅读和下载服务。

2、万方数据知识服务平台

网址：

万方数据、论文、文献、期刊论文、学位论文、学术会议、中外标准、法律法规、科技成果、中外专利、外文文献。重点收录科技部论文统计源的核心期刊，核心期刊比例高，收录文献质量高，不定期更新。

3、超星发现

网址：

全世界最大的中文电子书图书网站，数据库涵盖了1949年后85%以上的中国大陆所有出版书籍，主要面向大学以上高校用户。

4、OALib 免费论文搜索引擎

网址：

OALib是一个学术论文存储量超过420W篇的网站，其中涵盖数学、物理、化学、人文、生物、材料、医学和人文科学等领域，文章均可免费下载。

它的一大特色在于功能上支持页面快照，不出站就可直接浏览文章标题、作者、关键词、以及摘要等基本信息，大大缩短了时间成本，是一个较为高效的论文查找网站。

5、BaseSearch 德国比勒菲尔德学术搜索引擎

网址：

它是由德国著名的比勒菲尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎，提供对全球异构学术资源的集成检索服务。BaseSearch整合了德国比勒菲尔德大学图书馆的图书馆目录和大约160个开放资源(超过200万个文档)的数据。

检索中文文献用：百度学术、知网、万方、维普（期刊库）、超星读秀（电子书）、全国图书馆参考咨询联盟（电子书）检索外文文献用：谷歌学术（外文学术文献搜索）、sci-hub（外文学术文献下载）、Web of Science（ISI科学引文索引）、ScienceDirect（综合）、springer（电子书）、、PubMed（生物医学）、Wiley（综合）以上是检索中外文献常用数据库，如果没有这些数据库使用权可以通过文献党下载器（）访问这些数据库。

①首先要在三大网上中文期刊数据库中查找最新的期刊论文文献。中文科技期刊全文数据库和中国期刊网 ②在清华库中有中国优秀博硕士学位论文全文数据库和中国重要会议论文全文数据库，也是撰写毕业论文的重要信息来源； ③三大中文数字图书馆（超星、方正、书生）是重要的文献信息来源； ④使用两大搜索引擎，可以帮助你扩大思考的范围，指引你找到新的文献信息资源 ⑤如果找不到足够多的文献怎么办？可以采用“滚雪球法”进行查找，即利用已找到的文献后的参考文献扩大检索范围。清华库中的《中国期刊引文——全文链接记录库》也是帮助你实现“滚雪球查找”的有力工具；

论文期刊的搜索引擎

如下：

1、中国知网

网址：

2、万方数据知识服务平台

网址：

3、超星发现

网址：

全世界最大的中文电子书图书网站，数据库涵盖了1949年后85%以上的中国大陆所有出版书籍，主要面向大学以上高校用户。

4、OALib 免费论文搜索引擎

网址：

OALib是一个学术论文存储量超过420W篇的网站，其中涵盖数学、物理、化学、人文、生物、材料、医学和人文科学等领域，文章均可免费下载。

5、BaseSearch 德国比勒菲尔德学术搜索引擎

网址：

论文参考文献可以找的网站如下：

1、知网国内最大知识库，还有批量导出参考文献功能。

2、谷歌学术收录各个领域学术资料的免费搜索引擎。ScienceDirect收录的期刊是世界上公认的高质量学术期刊。

3、Web of Science数据库是国际公认的反映科学研究水准的数据库。检索精确到文献被收录的期刊、出版公司、作者、日期、页码等。

按照字面的意思，参考文献是文章或著作等写作过程中参考过的文献。然而，按照GB/T7714-2015《信息与文献参考文献著录规则》的定义，文后参考文献是指：为撰写或编辑论文和著作而引用的有关文献信息资源。

根据《中国学术期刊（光盘版）检索与评价数据规范（试行）》和《中国高等学校社会科学学报编排规范（修订版）》的要求，很多刊物对参考文献和注释作出区分，将注释规定为对正文中某一内容作进一步解释或补充说明的文字，列于文末并与参考文献分列或置于当页脚地。

参考文献自动生成：

知网

百度学术：

谷歌学术：

查找参考文献的网站：

1、文献党下载器（）一款资源集成的文献下载平台，几乎整合了所有中外文献数据库资源，覆盖全科以及各种文献类型。整合资源包括知网、万方、维普、SpringerLink、Elsevier（sciencedirect）、Wiley 、Web of Science、PubMed 、EI、ProQuest（国外学位论文）等数据库资源，还有大量的世界知名期刊，如：nature《自然》、science《科学》、CELL《细胞》、PNAS《美国科学院院报》等等。只要有互联网，在哪里都可以查找下载文献。

2、知网：全球最大的中文数据库。提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书等各类资源，并提供在线阅读和下载服务。涵盖领域包括：基础科学、文史哲、工程科技、社会科学、农业、经济与管理科学、医药卫生、信息科技等。

3、万方数据库：是由万方数据公司开发的，涵盖期刊、会议纪要、论文、学术成果、学术会议论文的大型网络数据库；也是和中国知网齐名的中国专业的学术数据库。

学科分类：综合，机械，电子电气，计算机/信息科学，能源/动力工程，建筑/土木工程，艺术，社会科学，语言/文学，教育，哲学，政治，生物，材料科学，环境科学，化学/化工，物理，数学。

4、Web of Science是获取全球学术信息的重要数据库。其中以SCIE、SSCI、A&HCI等引文索引数据库，JCR期刊引证报告和ESI基本科学指标享誉全球科技和教育界。Web of Science收录了论文中所引用的参考文献，通过独特的引文索引，用户可以用一篇文章、一个专利号、一篇会议文献、一本期刊或者一本书作为检索词，检索它们的被引用情况，轻松回溯某一研究文献的起源与历史，或者追踪其最新进展；可以越查越广、越查越新、越查越深。

5、Wiley 作为全球最大、最全面的经同行评审的科学、技术、医学和学术研究的在线多学科资源平台之一，Wiley及旗下的子品牌出版了超过500位诺贝尔奖得主的作品。“Wiley Online Library”覆盖了生命科学、健康科学、自然科学、社会与人文科学等全面的学科领域。Wiley Online Library上有1600多种经同行评审的学术期刊，20000本电子图书，170多种在线参考工具书，580多种在线参考书，19种生物学、生命科学和生物医学的实验室指南（Current Protocols），17种化学、光谱和循证医学数据库（Cochrane Library）。

6、Elsevier（sciencedirect）是荷兰一家全球著名的学术期刊出版商，每年出版大量的学术图书和期刊，大部分期刊被SCI、SSCI、EI收录，是世界上公认的高品位学术期刊。scienceDirect是爱思唯尔公司的全文数据库平台，是全球最大的科学、技术与医学全文电子资源数据库，提供2500余种学术期刊以及37000余种图书的全文内容。包括全球影响力极高的CELL《细胞杂志》、THE LANCET《柳叶刀杂志》等。

7、SpringerLink是全球最大的在线科学、技术和医学(STM)领域学术资源平台。Springer 的电子图书数据库包括各种的Springer图书产品，如专著、教科书、手册、地图集、参考工具书、丛书等。具体学科涉及：数学、物理与天文学、化学、生命科学、医学、工程学、计算机科学、环境科学、地球科学、经济学、法律。

8、PubMed 是一个免费的搜寻引擎，提供生物医学方面的论文搜寻以及摘要的数据库。它的数据库来源为MEDLINE。其核心主题为医学，但亦包括其他与医学相关的领域，像是护理学或者其他健康学科。PubMed 的资讯并不包括期刊论文的全文，但可提供指向全文提供者（付费或免费）的链接。

参考文献标准格式：

1、参考文献类型：

普通图书[M]、期刊文章[J]、报纸文章[N]、论文集[C]、学位论文[D]、报告[R]、标准[s]、专利[P]、数据库[DB]、计算机程序[CP]、电子公告[EB]、联机网络[OL]、网上期刊[J／OL]、网上电子公告[EB／OL]、其他未说明文献[z]。

2．参考文献格式及示例：

(1)专著、论文集、学位论文、报告：

[序号]主要责任者．文献题名[文献类型标识]．出版地：出版者，出版年：起止页码(任选)．

[1]刘国钧，陈绍业，王凤翥．图书馆目录[M]．北京：高等教育出版社，1957： 15—18．

[2]辛希孟．信息技术与信息服务国际研讨会论文集：A集[c]．北京：中国社会科学出版社．1994．

[3]Radden G&Kovecses Z．Towards a Theory of Metonymy[M]．Amsterdam：John Benjamins，1999．

(2)期刊文章：

[序号]主要责任者．文献题名[T]．刊名，年，卷(期)：起止页码．

[4]金显贺，王昌长，王忠东，等．一种用于在线检测局部放电的数字滤波技术[T]．清华大学学报(自然科学版)，1993，33(4)：62—67．

[5]Hubscher—Davidson S E．Personal diversity and diverse personalities in translation： A study of individual differences[J]．Perspectives&u西es in Translatology，2009，1 7 (3)：175-192．

(3)论文集中的析出文献：

[序号]析出文献主要责任者．析出文献题名[C]／／原文献主要责任者(任选)．原文献题名．出版地：出版者，出版年：析出文献起止页码．

[6]钟文发．非线性规划在可燃毒物配置中的应用[C]／／赵玮．运筹学的理论与应用——中国运筹学会第五届大会论文集．西安：西安电子科技大学出版社，1996： 468-471．

[7]Barcelona A．Reviewing the properties and prototype structure of metonymy[C]／／Benczes R，Barcelona A．Defining Metonymy in Cognitive Linguistics：Towards a Consensus View． Philadelphia：John Benjamins Publishing Co．，20 11：7—57．

(4)报纸文章：

[序号]主要责任者．文献题名[N]．报纸名，出版日期(版次)．

[8]谢希德．创造学习的新思路[N]．人民El报，1998—12—25(10)．

(5)国际、国家标准：

[序号]．标准编号，标准名称[s]．

[9]GB／T 16159—1996，汉语拼音正词法基本规则[s]．

(6)专利：

[序号]专利所有者．专利题名[P]．专利国别：专利号，出版日期．

[10]姜锡洲．一种温热外敷药制备方案[P]．中国专利：881056073，1989—07—26．

(7)电子文献：

[序号]主要责任者．电子文献题名[电子文献及载体类型标识]．(发表或更新日期)[引用日期]．电子文献的出处或可获得地址．

[11]王明亮．关于中国学术期刊标准化数据库系统工程的进展[EB／OL]．(1998—08— 16)[1998—10—04]．http：Hwww．cajcd．edu．cn／pub／wml．txt／980810—2．html．

[12]万锦坤．中国大学学报论文文摘(1983--1993)．英文版[DB／CD]．北京：中国大百科全书出版社，1996．

(8)各种未定义类型的文献：

[序号]主要责任者．文献题名[z]．出版地：出版者，出版年．

谷歌论文搜索引擎

优点就是外网的可以查找到更多的数据对比。因为到了研究生阶段之后，更需要阅读大量英文献数据，因为英文数据可以看到国外很多优质的研究，也可以看到其他人的研究方法，这也是谷歌学术弥补了中国网这块缺失的主要优势。

文献党下载器（）：整合汇集大量中外文献数据库，每个数据库又提供了海量的文献资源。主要用于查询下载中外文献。

知网：国内最大知识库，综合学科。提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书、引文库、中国经济社会大数据研究平台等学术文献资源统一检索、统一导航、在线阅读和下载服务。

万方：国内著名知识库之一，综合学科。涵盖期刊、会议纪要、论文、学术成果、学术会议论文的大型网络数据库。

维普：期刊文献查询下载平台。

读秀、超星：主要是电子书查询下载，需要下载超星阅读器。

百度学术：免费学术论文搜索引擎，部分文献可直接下载。

谷歌学术：免费外文学术论文搜索引擎，部分文献可直接下载。

Web of Science（ISI科学引文索引）：包括著名的三大引文索引数据库(SCI,SSCI,A&HCI)。ScienceDirect（Elsevier）：荷兰一家全球著名的学术期刊出版商，每年出版大量的学术图书和期刊，大部分期刊被SCI、SSCI、EI收录，是世界上公认的高品位学术期刊。

ProQuest：美国国会图书馆指定的收藏全美国博硕士论文的机构，ProQuest Dissertations & Theses Global（PQDT Global）是目前世界上规模最大。

使用最广泛的博硕士论文数据库。SpringerLink：是全球最大的在线科学、技术和医学(STM)领域学术资源平台。主要用于外文电子书检索。

PubMed：生物医学信息检索系统，该系统通过网络途径免费提供包括MEDLINE在内的自1950年以来全世界70多个国家4300多种主要生物医学文献的书目索引和摘要，并提供部分免费和付费全文链接服务。

Wiley：全球最大的学术出版商之一，面向专业人士、科研人员、教育工作者、学生、终身学习者提供必需的知识和服务。

IEEE/IEE Electronic Library (IEL) 数据库：收录美国电气电子工程师学会（ IEEE ）和英国电气工程师学会（ IEE ）出版的 242 种期刊、 8706 余种会议录和近 1706 种标准的全文信息。

首先google scholar网站收录论文的数量比其他数据库要多。其次该网站的很多论文可以直接在检索页面下载，不用进入论文网站。

＜strong＞查找方法如下＜/strong＞直接检索，在知道目标文献的标题，ISBN/ISSN，或者DOI的时候，我们可以在搜索框里进行直接检索。Google Scholar，又叫谷歌学术，是由谷歌公司开发并持有的一项免费学术搜索引擎。注意，和知网不一样，它是免费的。谷歌学术包括了世界上绝大多数出版的学术期刊。除了最常见的期刊论文之外，Google Scholar还能帮助用户查找包括学位论文、书籍、预印本、文摘和技术报告在内的多种学术文献。

搜索引擎信息检索论文

我给你找了一篇，摘要如下:随着Internet在全世界范围内迅猛发展，网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此，对网络信息的检索技术及其发展趋势进行探讨和研究，是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究，并对网络信息检索的发展趋势进行了预测，旨在寻找提高网络信息检索的手段和方法的有效途径，并最终提高网络信息的检索效果，使得网络信息资源得到充分有效地利用。全文主要包括六个部分，第一部分为网络信息检索述评，主要是阐述了网络信息检索所涉及到的有关概念，如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等，旨在弄清网络信息检索的技术支撑，为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述，主要从其检索机制入手，分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括，并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限，主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本，贴在下面:网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展，网上信息资源也以指数形式增加，网络信息资源作为一种新型的信息资源，发挥着越来越重要的作用，其内容几乎无所不包，涉及政治、经济、文化、科学、娱乐等各个方面；其媒体形式多种多样，包括文本、图形、图像、声音、视频等；其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的信息需求查找所需信息的过程和技术，所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程，也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中，通过人工查找索引找到对应的文献索引号再获取文献原文；②联机信息检索。这其中也存在一个发展过程，由检索结果来看，从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文；由检索方法来看，从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中，全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速，成为深受人们关注的一种非常有效的信息检索技术，它是从大容量文档库中精确定位所需信息的最有效手段l3]。.信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br，singsystelns)。只要能够进入hitemct就能够通过浏览器，利用HTTP协议提供的WV乃万服务，浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点，它是以一定的技术和策略在intemet中搜集和发现网络信息，并对网络信息进行理解、提取和处理，建立数据库，同时以认倪b形式提供一个检索界面，供用户输入检索关键词、词组或短语等检索项，代替用户在数据库中查找出与提问相匹配的记录，同时返回结果且按相关度排序输出，从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息，另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要，所以它是面向用户的，采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。网络信息检索效果评价目前，得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式，其中以查全率和查准率最为重要。现代信息科学技术的发展，为人们提供了多种多样的信息获取和传送方法及技术，从“信源”与“用户”的关系来看，可分为两种模式:“信息推送”模式(InformationPush)，由“信源”主动将信息推送给“用户”，如电台广播；“信息拉取”模式(InformationPull)，由“用户”主动从“信源”中拉取信息，如查询数据库。信息推送技术“推”模式网络信息服务，是基于网络环境下的一种新的服务形式，即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术，是因为借助该技术使网络信息服务具有主动性，不仅可以直接把用户感兴趣的信息推送给用户，而且可有效地利用网络资源，提高网络吞吐率；再者，Push技术还允许用户与提供信息的服务器之间透明地进行通信，极大地方便了用户。所谓Push技术，又称“推送”技术、Web广播(Webeasting)技术，实质上是一种软件，这种软件可以根据用户定义的准则，自动搜集用户最可能发生兴趣的信息，然后在适当的时候，将其传递至用户指定的“地点”。因而从技术上看，“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件，该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息)，还能够主动从网上搜寻信息，并经过筛选、分类、排序，然后按照每个用户的特定要求，主动推送给用户141。(l)信息推送方式。信息推送方式分两类，即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式，它将某些页面定义为浏览器中的频道，用户可像选择电视频道那样接受有兴趣的网播信息；邮件式推送，用电子邮件方式主动将所推送信息发布给各用户，如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户，如某企业、某组织、某个人的网页；专用式推送。采用专门的信息发送和接收软件，信源将信息推送给专门用户，如机密的点对点通信。智能推送方式有:操作式推送(客户推送式)，由客户数据操作启动信息推送。当某客户对数据进行操作时，把修改后的新数据存入数据库后，即启动信息推送过程，将新数据推送给其他客户；触发式推送(服务器推送式)，由ll硕士学位论文MASTER，5THESIS⑧数据库中的触发器启动信息推送过程，将新数据推送给其他客户，当数据发生变化，如出现增加(Insert)、删除(Delete)、修改(update)操作时，触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而，主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说，Push技术可以针对用户的特定信息需求进行检索、加工和推送，并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至，Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索，收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性，控制搜索的深度，过滤掉不必要的信息，将认飞b站点的资源列表及其更新状态配以客户代理完成。因而，网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动，有效地利用网络带宽，比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要，灵活地设置连接时间，通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现，不仅需要信息技术设备，而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段，“推”技术还存在很大的缺陷，比如:不能确保信息发送，没有状态跟踪，缺乏群组管理功能等等。因此，国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制)，摒弃了Push的诸多缺点之，2硕士学位论文MASTER，5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户，同时保持连续性的用户资料，随时可以知道谁收到了信息，信息是否为该用户定制，用户环境是否适当等等[刀。信息拉取技术常用的、典型的信息拉取技术，如数据库查询，是由用户主动查询数据库，从数据库中拉取所需信息。其主要优点是:针对性好，用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上，用户面对的不止是一个数据库，而是拥有海量信息的hitemet环境，因此，各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点，在实际中常常是将两者的结合起来，常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息)，再有针对性地拉取所需的信息。这样，便于用户注意信息变化的新情况和趋势，从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息，然后根据用户的兴趣，再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中，允许用户随时中断、定格在所感兴趣的网页上，作进一步的搜索，主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中，根据用户输入的关键词，信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务，又可以减轻网络的负担，并便于扩大用户范围[8]。因此，信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。挖掘技术随着功temet的发展，W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时，又使得人类的信息环境更加复杂，人硕士学位论文MASTER，5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决，相反，随着信息技术的发展，信息量的激增，造成了个人实际所需信息量与研触b上的海量信息之间的矛盾，因而也就造成了个人利用信息的困难。在这种情况下，虽然出现了叭范b环境下的专门检索工具，但是由于搜索引擎是由传统检索技术发展而来，在当前用户要求不断提高的情况下，传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源，W七b挖掘作为新的知识挖掘的手段，为Web信息的利用提出了新的解决方案叨。，1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料，从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段，它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识，以实现Web资源的自动检索，提高web数据的利用效率。随着Intemet的进一步延伸，Web数据越来越庞大，种类越来越繁多，数据的形式既有文本数据信息，也有图像、声音、视频等多媒体数据信息，既有来自于数据库的结构化数据，也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而，对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度，主要研究如何处理文本格式和超级链接文档，这些数据是非结构化或半结构化的。处理非结构化数据时，一般采用词集方法，用一组组词条来表示非结构化的文本，先用信息评价技术对文本进行预处理，然后采取相应的模型进行表示。另外，还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时，可以利用一些相关算法给超级链接分类，寻求认七b页面关系，抽取规则。同处理非结构化数据相比，由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构，使得表示半结构化数据的方法更加丰富。二是从数据库的角度，主要处理结构化的W匕b数据库，也就是超级链接14⑧蕊誉蕊文档，数据多采用带权图或者对象嵌入模型(OME)，或者关系数据库表示，应用一定的算法，寻找出网站页面之间的内在联系，其主要目的是推导出Web站点结构或者把W匕b变成一个数据库，以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化，研究认触b上的高级查询语言，使其不局限于关键字查询；二是信息的集成与抽取，把每个W七b站点及其包装程序看成是一个认范b数据源，通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成；三是叭几b站点的创建与重构，通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘，主要指的是通过对W七b文档的分析，从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系，W七b结构挖掘关注的则是网站中的超级链接结构之间的关系，找到隐藏在一个个页面之后的链接结构模型，可以用这个模型对W七b页面重新分类，也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据，页内结构可以用超文本标记语言等表示成树型结构，此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系，如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类，可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息，通过研究W亡b页面内部结构，可寻找出与用户选定的页面集合信息相关的其它页面信息模式，以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析，从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式，它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点，使得在认七b网上进行内容挖掘比较困难，它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构，当信息用户访问web站点时，与访问相关的页面、时间、用户ro等信息，日志中都作了相应的记录，因而对其进行信息l5硕士学位论文MASTER，5THESIS⑥挖掘是可行的，也是有意义的。在技术实践过程中，一般先把日志中的数据映射成诸种关系信息，并对其进行预处理，包括清除与挖掘不相关的信息等。为了提高性能，目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度，行为挖掘也应用到站点结构信息和页面内容信息等方面。挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程，由于用传统的信息检索技术对W己b文档的处理不够深入，因此，可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善，具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息，然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息，就可以对W七b网页的信息有大致的了解，决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别，利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围，大大提高查准率。目前，己经出现了很多文本分类技术，如TFIFF算法等，由于文本挖掘与搜索引擎所处理的文本几乎完全一样，所以可以直接将文本分类技术应用于搜索引擎的自动分类之中，通过对大量页面自动、快速、有效的分类，来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反，文本聚类指的是将文档集合中的文档分为更小的簇，要求同一簇内的文档之间的相似性尽可能大，而簇与簇之间的关系尽可能小，这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别，从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比，它的分类更加迅速、客观。同时，文本聚类可与文本分类技术相结合，使得信息处理更加方便。可以对检索结果进行分类，并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构，一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理，所以搜索引擎一般不处理这些信16硕士学位论文MASTER，S竹正515⑧息，而是将叭触b页面作为平面机构的文本进行处理。但是，在从触b结构挖掘中，通过对研触b文档组织结构的挖掘，搜索引擎可以进一步扩展搜索引擎的检索能力，改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容，通过研触b行为挖掘，不仅可以发现多数用户潜在共同的行为模式，而且还可以发现单个用户的个性化行为，对这些模式进行研究，可以更好地对搜索引擎的检索效果进行反馈，以便进一步改进搜索策略，提高检索效果。挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示，都不能完全解决W七b数据的非结构性问题，特别是汉语句子格式繁多，虚词、实词没有绝对的界限，切分词难度大，这些是造成无法对数据进行完全自动标引的根本性问题，因此，从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储，并最终实现智能化、自动化的数据表示和标引，以供搜索之用。通常数据的表示和数据的利用形式是相互关联的，因此，设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引，这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展，网站的内容也越来越丰富，结构也越来越庞杂，用有向图表示巨型网站链接结构将不能满足数据处理的需要，需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流，那么，对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等，不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3)，eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性，客户端、代理服务器端缓存的存在，使用户访问日志分别存在于服务器、代理服务器和客户端，因此，从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理，形成一个个用户一次的访问期间。通常来讲，对于静态W七b网站，服务器端的日志容易取得，客户端和代l7理服务器用户访问日志不容易取得；其次，由于一个完整的W匕b是由一个个图片和框架页面组成的，而用户访问服务器也有并发性，在确定用户访问内容时，必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外，由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的，在处理海量Web用户访问日志中也需要重新设计算法结构〔41。信息过滤技术hitemet开放式的环境，为人们检索和利用信息提供了极大的方便，但同时，网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为，第一，网络环境中信息的来源复杂多样，随意性大，任何人、任何单位不管其背景和动机如何都可以在网络上发布信息，信息的产生和传播没有经过筛选和审定，因此信息的可靠性、质量和价值成为用户普遍担心的一大问题；第二，目前大多数据搜索工具的检索范围是综合性的，它们的Robots尽可能地把各种网页抓回来，经过简单加工后存放在数据库中备检；第三，搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配，返回给用户的就是所有包括关键词的文献，这样的检索结果在数量上远远超出了用户的吸收和使用能力，让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视，它的目的就是让搜索引擎具有更多的“智力”，让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中，从关键词的选择、检索范围的确定到检索结果的精炼，帮助用户在浩如烟海的信息中找到和需求真正相关的资料。信息过滤模型信息过滤其实质仍是一种信息检索技术，因此它仍依托于某一信息检索模型，不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中，它以文献中是否包含关键词来作为取舍标准，因此，它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时，用户提交关键词。

网络信息检索方法与应用这个原创。联系看我资料

信息检索技术论文 –基于网格的面向专业内容的Web信息检索1 引言近年来，互联网得到了迅速的发展，网上信息资源愈来愈庞大，且信息具有量大、分散、异构等特性，因此，传统的Web信息检索工具开始暴露出它性能低下的一面，具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录，根本无法从中再细找，或者找到的内容和要找的内容不是一个专业领域的，造成信息无效的现象。但随着人们信息意识的增强，对信息内容及信息服务的需求也在不断的演变和发展，对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务，使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构，它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理，为用户快速、有效地获取自己所需要的信息提供了一种方法。2 基于网格的面向专业内容的Web信息检索体系结构的设计网格计算是近年来国际上兴起的一种重要信息技术，其目的是将网上各种资源组织在一个统一的大框架下，为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台，实现互联网上所有资源的全面连通，实现信息资源的全面共享。为解决不同领域复杂科学计算与海量信息服务问题，人们以网络互连为基础构造了不同的网格，他们在体系结构，要解决的问题类型等方面各不相同，但网格计算至少需要具有三种基本功能：资源管理、任务管理、任务调度。本文设计的信息检索体系结构，围绕网格计算的基本功能及信息检索的特点，主要有以下三个层次组成：见图1（1）网格结点：结点是网格计算资源的提供者，本系统主要是由一系列的集群系统组成，它们在地理位置上是分布的，构成了一个分布检索群体，作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理，维护和查询。（2）网格计算中间件：中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分，它根据用户的信息请求任务，在整个网格内负责信息资源的匹配、定位，实现用户任务到集群系统的映射。（3）网格用户层：主要为用户应用提供接口，支持用户对所需要的信息资源进行描述、创建、提交等。图1本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统，集群系统对集群内的资源进行管理和任务调度，再利用网格中间件对各集群系统进行管理，从而形成对整个网格资源的管理，并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略，又可利用中间件在全局意义上对网格信息资源进行管理。集群系统的设计由于Web信息资源数量十分庞大，用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题，往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体，并使其从客户端看来就如同一台服务器在服务，这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略，将Web信息资源按地区按专业内容分割，一方面使信息资源数量相对缩小，便于数据的组织、管理和维护，另一方面按专业内容易于制定一个公用的XML规范，便于集群内各类信息资源的描述，从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent，基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。资源服务Agent根据信息资源请求任务，利用XML信息集成系统提供的数据，为用户提供实际的资源检索操作，并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法：XML（the eXtensible Markup Language）是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准，它是一种可以对信息进行自我描述的语言，它允许开发人员通过创建格式文件DTD（Document Type Definitions）定制标记来描述自己的数据，DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本，因此具有跨平台的优点，XML的优点在于（1）简单、规范性：XML文档基于文本标签，有一套严谨而简洁的语法结构，便于计算机、用户理解；（2）可扩展性：用户可以自定义具有特定意义的标签，自定义的标签可以在任何组织、客户、应用之间共享；（3）自描述性：自描述性使其非常适用不同应用间的数据交换，而且这种交换是不以预先定义一组数据结构为前提，因此具有很强的开放性；（4）互操作性：XML可以把所有信息都存于文档中传输，而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用，因此它为基于特定专业内容的表达提供了一种极好的手段，可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类：存入仓库法（the ware-housing approach）和虚拟法(the virtual approach)，可使用这两类方法利用XML在数据组织和交换方面的优越性，采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射，建立基于XML的Web信息集成系统，其结构与获取信息的工作过程参见文献[2]。图网格中间件的设计图3所示的网格中间件的主要功能是（1）消除不同用户与集群系统之间数据表达的差异，使信息资源数据对用户来说是透明的；（2）管理、维护Web上分布的各集群系统，网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息，对关系数据库的操作可维护集群系统的分布式逻辑，使本结构在可变性和扩充性上具有柔性；（3）接受用户的信息请求任务，能快速定位于满足要求的集群系统，通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下：（1）接收Agent模块：主要用于登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。（2）关系数据库及数据服务Agent：关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。（3）格式转换Agent模块：提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的，各用户对同一数据有不同的表示方法（对信息资源描述存在差异）由于XML文档中这种格式差异体现在与之相关的DTD/Schema上，因此经过格式转换，可使信息资源的格式对用户是透明的。（4） XML文档分析Agent模块：提取格式转换后的XML文档中各个标签，通过查询网格中间件中的关系数据库，实现用户信息请求任务与集群系统的对应关系，并得到满足条件的集群系统的相关信息，获取各集群系统的接口参数。（5）发送Agent模块：将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术，Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征，代表用户完成用户的任务，并能动态适应环境的变化更好地满足用户的需求，提高信息检索的能力。文秘杂烩网