信息检索与利用论文2000字怎么写的

现代信息检索论文: 现代信息检索方法的探讨要想充分利用这些浩如烟海的文献信息资源，必须借助各种各样的检索工具。同时，因特网信息资源的骤增及其异构性、动态性，不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理，从本质上变革信息资源检索方法，已成为现代化信息知识检索理论研究的热点。实践证明，将人工智能技术与信息技术结合，发挥人工智能的作用，是一条成功的经验。下面就知识检索与信息检索的关联和发展，作初步的探讨。一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配，是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种，分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式，计算机将根据提问式与系统中的记录进行匹配，当两者相符时则命中，并自动输出该文献记录。下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”，表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”，表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”，表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。检索中逻辑算符使用是最频繁的，对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求，除要掌握检索课题的相关因素外，还应在布尔算符对检索结果的影响方面引起注意。另外，对同一个布尔逻辑提问式来说，不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。二、信息检索信息检索起源于图书馆的参考咨询和文摘索引工作，从19世纪下半叶首先开始发展，至20世纪40年代，索引和检索已成为图书馆独立的工具和用户服务项目。信息检索通常指文本信息检索，包括信息的存储、组织、表现、查询、存取等各个方面，其核心为文本信息的索引和检索。它是基于信息组织形式，如字符串、结构化数据库，应用信息处理方法，如排序数据查找、字符匹配，实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术，改进了基本检索功能，但缺点是对精确的提问不能给出精确的回答。从历史上看，信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前，信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容；信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众，他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。三、知识检索知识检索的基本思想是，模拟扩展人类关于知识处理与利用的智能行为和认识思维方法，是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如：抽象思维方法，形象思维方法。知识检索具有明显的优势：①实现信息服务向知识服务的转化，向用户提供潜在内容知识，以及分析预测后的超前性领域成果或知识。②提供主动服务方式，自动优化用户需求，主动提供个性化检索。③面向用户，依据用户的需求及其变化，能灵活选择理想的检索策略和技术，并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术，全面提高检索效率。知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术，基于知识和知识组织，融合知识处理和多媒体信息处理等多种方法与技术，充分表达和优化用户需求，能高效存取所有媒体类型的知识源，并能准确精选用户需要的结果。

信息检索与利用论文怎么写的

我们对一个问题研究之后，如何将其展现于众人面前是一个重要的工作。在这里我们结合具体的事例，给大家介绍科研的一个重要部分枣论文的一般格式及其注意事项。当然，要写出一篇好的论文，绝不是单单这么一个简要的介绍就够了，还需自己多写、多练。随着科学技术的发展，越来越多的学者涉及到学术论文的写作领域，那么怎样写学术论文、学术论文写作是怎样要求的、格式如何，下面就介绍一下学术论文的写作，希望能对您论文写作有所帮助。 (一)题名（Title，Topic） 1、论文格式的论文题目：（下附署名）要求准确、简练、醒目、新颖。论文题目是一篇论文给出的涉及论文范围与水平的第一个重要信息，也是必须考虑到有助于选定关键词不达意和编制题录、索引等二次文献可以提供检索的特定实用信息。论文题目十分重要，必须用心斟酌选定。有人描述其重要性，用了下面的一句话：论文题目是文章的一半。对论文题目的要求是：准确得体；简短精炼；外延和内涵恰如其分；醒目。对这四方面的要求分述如下。 1．准确得体要求论文题目能准确表达论文内容，恰当反映所研究的范围和深度。常见毛病是：过于笼统，题不扣文。关键问题在于题目要紧扣论文内容，或论文内容民论文题目要互相匹配、紧扣，即题要扣文，文也要扣题。这是撰写论文的基本准则。 2．简短精炼力求题目的字数要少，用词需要精选。至于多少字算是合乎要求，并无统一的硬性规定，一般希望一篇论文题目不要超出20个字，不过，不能由于一味追求字数少而影响题目对内容的恰当反映，在遇到两者确有矛盾时，宁可多用几个字也要力求表达明确。若简短题名不足以显示论文内容或反映出属于系列研究的性质，则可利用正、副标题的方法解决，以加副标题来补充说明特定的实验材料，方法及内容等信息使标题成为既充实准确又不流于笼统和一般化。 3．外延和内涵要恰如其分外延和内涵属于形式逻辑中的概念。所谓外延，是指一个概念所反映的每一个对象；而所谓内涵，则是指对每一个概念对象特有属性的反映。命题时，若不考虑逻辑上有关外延和内涵的恰当运用，则有可能出现谬误，至少是不当。 4．醒目论文题目虽然居于首先映入读者眼帘的醒目位置，但仍然存在题目是否醒目的问题，因为题目所用字句及其所表现的内容是否醒目，其产生的效果是相距甚远的。有人对36种公开发行的医学科持期刊1987年发表的论文的部分标题，作过统计分析，从中筛选100条有错误的标题。在100条有错误的标题中，属于省略不当错误的占20%；属于介词使用不当错误的占12%）。在使用介词时产生的错误主要有： ①省略主语枣第一人称代词不达意后，没有使用介词结构，使辅助成分误为主语； ②需要使用介词时又没有使用； ③不需要使用介词结构时使用。属主事的错误的占11%；属于并列关系使用不当错误的占9%；属于用词不当、句子混乱错误的各占9%，其它类型的错误，如标题冗长、文题不符、重复、歧意等亦时有发生。（二）作者姓名和单位（Author and department）这一项属于论文署名问题。署名一是为了表明文责自负，二是记录作用的劳动成果，三是便于读者与作者的联系及文献检索（作者索引）。大致分为二种情形，即：单个作者论文和多作者论文。后者按署名顺序列为第一作者、第二作者厖。重要的是坚持实事求是的态度，对研究工作与论文撰写实际贡献最大的列为第一作者，贡献次之的，列为第二作者，余类推。注明作者所在单位同样是为了便于读者与作者的联系。（三）摘要（Abstract）论文一般应有摘要，有些为了国际交流，还有外文（多用英文）摘要。它是论文内容不加注释和评论的简短陈述。其他用是不阅读论文全文即能获得必要的信息。摘要应包含以下内容： ①从事这一研究的目的和重要性； ②研究的主要内容，指明完成了哪些工作； ③获得的基本结论和研究成果，突出论文的新见解； ④结论或结果的意义。论文摘要虽然要反映以上内容，但文字必须十分简炼，内容亦需充分概括，篇幅大小一般限制其字数不超过论文字数的5%。例如，对于6000字的一篇论文，其摘要一般不超出300字。论文摘要不要列举例证，不讲研究过程，不用图表，不给化学结构式，也不要作自我评价。撰写论文摘要的常见毛病，一是照搬论文正文中的小标题（目录）或论文结论部分的文字；二是内容不浓缩、不概括，文字篇幅过长。（四）关键词（Key words）关键词属于主题词中的一类。主题词除关键词外，还包含有单元词、标题词的叙词。主题词是用来描述文献资料主题和给出检索文献资料的一种新型的情报检索语言词汇，正是由于它的出现和发展，才使得情报检索计算机化（计算机检索）成为可能。主题词是指以概念的特性关系来区分事物，用自然语言来表达，并且具有组配功能，用以准确显示词与词之间的语义概念关系的动态性的词或词组。关键词是标示文献关建主题内容，但未经规范处理的主题词。关键词是为了文献标引工作，从论文中选取出来，用以表示全文主要内容信息款目的单词或术语。一篇论文可选取3~8个词作为关键词。关键词或主题词的一般选择方法是：由作者在完成论文写作后，纵观全文，先出能表示论文主要内容的信息或词汇，这些住处或词江，可以从论文标题中去找和选，也可以从论文内容中去找和选。例如上例，关键词选用了6个，其中前三个就是从论文标题中选出的，而后三个却是从论文内容中选取出来的。后三个关键词的选取，补充了论文标题所未能表示出的主要内容信息，也提高了所涉及的概念深度。需要选出，与从标题中选出的关键词一道，组成该论文的关键词组。关键词与主题词的运用，主要是为了适应计算机检索的需要，以及适应国际计算机联机检索的需要。一个刊物增加关键词这一项，就为该刊物提高引用率、增加知名度开辟了一个新的途径。（五）引言（Intorduction）引言又称前言，属于整篇论文的引论部分。其写作内容包括：研究的理由、目的、背景、前人的工作和知识空白，理论依据和实验基础，预期的结果及其在相关领域里的地位、作用和意义。引言的文字不可冗长，内容选择不必过于分散、琐碎，措词要精炼，要吸引读者读下去。引言的篇幅大小，并无硬性的统一规定，需视整篇论文篇幅的大小及论文内容的需要来确定，长的可达700~800字或1000字左右，短的可不到100字。（六）正文（Main body）正文是一篇论文的本论，属于论文的主体，它占据论文的最大篇幅。论文所体现的创造性成果或新的研究结果，都将在这一部分得到充分的反映。因此，要求这一部分内容充实，论据充分、可靠，论证有力，主题明确。为了满足这一系列要求，同时也为了做到层次分明、脉络清晰，常常将正文部分人成几个大的段落。这些段落即所谓逻辑段，一个逻辑段可包含几个自然段。每一逻辑段落可冠以适当标题（分标题或小标题）。段落和划分，应视论文性质与内容而定。编写要求页面要求：毕业论文须用A4（210×297）标准、70克以上白纸，一律采用单面打印；毕业论文页边距按以下标准设置：上边距为30mm，下边距为25mm，左边距和右边距为25mm；装订线为10mm，页眉16mm，页脚15mm。页眉：页眉从摘要页开始到论文最后一页，均需设置。页眉内容：浙江广播电视大学汉语言文学类本科毕业论文，居中，打印字号为5号宋体，页眉之下有一条下划线。页脚：从论文主体部分（引言或绪论）开始，用阿拉伯数字连续编页，页码编写方法为：第×页共×页，居中，打印字号为小五号宋体。前置部分从中文题名页起单独编页。字体与间距：毕业论文字体为小四号宋体，字间距设置为标准字间距，行间距设置为固定值20磅。

【作者】赵棒未徐国华白素怀【刊名】情报学报 1994年02期编辑部Email《中文核心期刊要目总览》来源期刊 ASPT来源刊 CJFD收录期刊【机构】西安电子科技大学【聚类检索】同类文献引用文献被引用文献【摘要】信息检索的并行性研究包括数据并行和功能并行，而数据并行可表现为ＳＩＭＤ系统中的数据级并行以及分布式系统或ＭＩＭＤ系统中的数据集并行。本文讨论数据级并行检索和数据库的分布式并行检索两种方式，并在二者间作一简单比较。

同时，因特网信息资源的骤增及其异构性、动态性，不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理，从本质上变革信息资源检索方法，已成为现代化信息知识检索理论研究的热点。实践证明，将人工智能技术与信息技术结合，发挥人工智能的作用，是一条成功的经验。下面就知识检索与信息检索的关联和发展，作初步的探讨。一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配，是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种，分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式，计算机将根据提问式与系统中的记录进行匹配，当两者相符时则命中，并自动输出该文献记录。下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”，表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”，表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”，表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。检索中逻辑算符使用是最频繁的，对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求，除要掌握检索课题的相关因素外，还应在布尔算符对检索结果的影响方面引起注意。另外，对同一个布尔逻辑提问式来说，不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。二、信息检索信息检索起源于图书馆的参考咨询和文摘索引工作，从19世纪下半叶首先开始发展，至20世纪40年代，索引和检索已成为图书馆独立的工具和用户服务项目。信息检索通常指文本信息检索，包括信息的存储、组织、表现、查询、存取等各个方面，其核心为文本信息的索引和检索。它是基于信息组织形式，如字符串、结构化数据库，应用信息处理方法，如排序数据查找、字符匹配，实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术，改进了基本检索功能，但缺点是对精确的提问不能给出精确的回答。从历史上看，信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前，信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容；信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众，他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。三、知识检索知识检索的基本思想是，模拟扩展人类关于知识处理与利用的智能行为和认识思维方法，是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如：抽象思维方法，形象思维方法。知识检索具有明显的优势：①实现信息服务向知识服务的转化，向用户提供潜在内容知识，以及分析预测后的超前性领域成果或知识。②提供主动服务方式，自动优化用户需求，主动提供个性化检索。③面向用户，依据用户的需求及其变化，能灵活选择理想的检索策略和技术，并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术，全面提高检索效率。

信息检索与利用的论文怎么写

信息检索技术论文 –基于网格的面向专业内容的Web信息检索1 引言近年来，互联网得到了迅速的发展，网上信息资源愈来愈庞大，且信息具有量大、分散、异构等特性，因此，传统的Web信息检索工具开始暴露出它性能低下的一面，具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录，根本无法从中再细找，或者找到的内容和要找的内容不是一个专业领域的，造成信息无效的现象。但随着人们信息意识的增强，对信息内容及信息服务的需求也在不断的演变和发展，对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务，使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构，它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理，为用户快速、有效地获取自己所需要的信息提供了一种方法。2 基于网格的面向专业内容的Web信息检索体系结构的设计网格计算是近年来国际上兴起的一种重要信息技术，其目的是将网上各种资源组织在一个统一的大框架下，为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台，实现互联网上所有资源的全面连通，实现信息资源的全面共享。为解决不同领域复杂科学计算与海量信息服务问题，人们以网络互连为基础构造了不同的网格，他们在体系结构，要解决的问题类型等方面各不相同，但网格计算至少需要具有三种基本功能：资源管理、任务管理、任务调度。本文设计的信息检索体系结构，围绕网格计算的基本功能及信息检索的特点，主要有以下三个层次组成：见图1（1）网格结点：结点是网格计算资源的提供者，本系统主要是由一系列的集群系统组成，它们在地理位置上是分布的，构成了一个分布检索群体，作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理，维护和查询。（2）网格计算中间件：中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分，它根据用户的信息请求任务，在整个网格内负责信息资源的匹配、定位，实现用户任务到集群系统的映射。（3）网格用户层：主要为用户应用提供接口，支持用户对所需要的信息资源进行描述、创建、提交等。图1本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统，集群系统对集群内的资源进行管理和任务调度，再利用网格中间件对各集群系统进行管理，从而形成对整个网格资源的管理，并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略，又可利用中间件在全局意义上对网格信息资源进行管理。1 集群系统的设计由于Web信息资源数量十分庞大，用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题，往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体，并使其从客户端看来就如同一台服务器在服务，这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略，将Web信息资源按地区按专业内容分割，一方面使信息资源数量相对缩小，便于数据的组织、管理和维护，另一方面按专业内容易于制定一个公用的XML规范，便于集群内各类信息资源的描述，从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent，基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。资源服务Agent根据信息资源请求任务，利用XML信息集成系统提供的数据，为用户提供实际的资源检索操作，并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法：XML（the eXtensible Markup Language）是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准，它是一种可以对信息进行自我描述的语言，它允许开发人员通过创建格式文件DTD（Document Type Definitions）定制标记来描述自己的数据，DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本，因此具有跨平台的优点，XML的优点在于（1）简单、规范性：XML文档基于文本标签，有一套严谨而简洁的语法结构，便于计算机、用户理解；（2）可扩展性：用户可以自定义具有特定意义的标签，自定义的标签可以在任何组织、客户、应用之间共享；（3）自描述性：自描述性使其非常适用不同应用间的数据交换，而且这种交换是不以预先定义一组数据结构为前提，因此具有很强的开放性；（4）互操作性：XML可以把所有信息都存于文档中传输，而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用，因此它为基于特定专业内容的表达提供了一种极好的手段，可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类：存入仓库法（the ware-housing approach）和虚拟法(the virtual approach)，可使用这两类方法利用XML在数据组织和交换方面的优越性，采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射，建立基于XML的Web信息集成系统，其结构与获取信息的工作过程参见文献[2]。图2 网格中间件的设计图3所示的网格中间件的主要功能是（1）消除不同用户与集群系统之间数据表达的差异，使信息资源数据对用户来说是透明的；（2）管理、维护Web上分布的各集群系统，网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息，对关系数据库的操作可维护集群系统的分布式逻辑，使本结构在可变性和扩充性上具有柔性；（3）接受用户的信息请求任务，能快速定位于满足要求的集群系统，通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下：（1）接收Agent模块：主要用于登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。（2）关系数据库及数据服务Agent：关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。（3）格式转换Agent模块：提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的，各用户对同一数据有不同的表示方法（对信息资源描述存在差异）由于XML文档中这种格式差异体现在与之相关的DTD/Schema上，因此经过格式转换，可使信息资源的格式对用户是透明的。（4） XML文档分析Agent模块：提取格式转换后的XML文档中各个标签，通过查询网格中间件中的关系数据库，实现用户信息请求任务与集群系统的对应关系，并得到满足条件的集群系统的相关信息，获取各集群系统的接口参数。（5）发送Agent模块：将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术，Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征，代表用户完成用户的任务，并能动态适应环境的变化更好地满足用户的需求，提高信息检索的能力。文秘杂烩网

信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言近年来，互联网得到了迅速的发展，网上信息资源愈来愈庞大，且信息具有量大、分散、异构等特性，因此，传统的Web信息检索工具开始暴露出它性能低下的一面，具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录，根本无法从中再细找，或者找到的内容和要找的内容不是一个专业领域的，造成信息无效的现象。但随着人们信息意识的增强，对信息内容及信息服务的需求也在不断的演变和发展，对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务，使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构，它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理，为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计网格计算是近年来国际上兴起的一种重要信息技术，其目的是将网上各种资源组织在一个统一的大框架下，为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台，实现互联网上所有资源的全面连通，实现信息资源的全面共享。为解决不同领域复杂科学计算与海量信息服务问题，人们以网络互连为基础构造了不同的网格，他们在体系结构，要解决的问题类型等方面各不相同，但网格计算至少需要具有三种基本功能：资源管理、任务管理、任务调度。本文设计的信息检索体系结构，围绕网格计算的基本功能及信息检索的特点，主要有以下三个层次组成：见图1 （1）网格结点：结点是网格计算资源的提供者，本系统主要是由一系列的集群系统组成，它们在地理位置上是分布的，构成了一个分布检索群体，作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理，维护和查询。（2）网格计算中间件：中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分，它根据用户的信息请求任务，在整个网格内负责信息资源的匹配、定位，实现用户任务到集群系统的映射。（3）网格用户层：主要为用户应用提供接口，支持用户对所需要的信息资源进行描述、创建、提交等。图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统，集群系统对集群内的资源进行管理和任务调度，再利用网格中间件对各集群系统进行管理，从而形成对整个网格资源的管理，并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略，又可利用中间件在全局意义上对网格信息资源进行管理。 1 集群系统的设计由于Web信息资源数量十分庞大，用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题，往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体，并使其从客户端看来就如同一台服务器在服务，这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略，将Web信息资源按地区按专业内容分割，一方面使信息资源数量相对缩小，便于数据的组织、管理和维护，另一方面按专业内容易于制定一个公用的XML规范，便于集群内各类信息资源的描述，从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent，基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。资源服务Agent根据信息资源请求任务，利用XML信息集成系统提供的数据，为用户提供实际的资源检索操作，并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法： XML（the eXtensible Markup Language）是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准，它是一种可以对信息进行自我描述的语言，它允许开发人员通过创建格式文件DTD（Document Type Definitions）定制标记来描述自己的数据，DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本，因此具有跨平台的优点，XML的优点在于（1）简单、规范性：XML文档基于文本标签，有一套严谨而简洁的语法结构，便于计算机、用户理解；（2）可扩展性：用户可以自定义具有特定意义的标签，自定义的标签可以在任何组织、客户、应用之间共享；（3）自描述性：自描述性使其非常适用不同应用间的数据交换，而且这种交换是不以预先定义一组数据结构为前提，因此具有很强的开放性；（4）互操作性：XML可以把所有信息都存于文档中传输，而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用，因此它为基于特定专业内容的表达提供了一种极好的手段，可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类：存入仓库法（the ware-housing approach）和虚拟法(the virtual approach)，可使用这两类方法利用XML在数据组织和交换方面的优越性，采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射，建立基于XML的Web信息集成系统，其结构与获取信息的工作过程参见文献[2]。图2 2 网格中间件的设计图3所示的网格中间件的主要功能是（1）消除不同用户与集群系统之间数据表达的差异，使信息资源数据对用户来说是透明的；（2）管理、维护Web上分布的各集群系统，网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息，对关系数据库的操作可维护集群系统的分布式逻辑，使本结构在可变性和扩充性上具有柔性；（3）接受用户的信息请求任务，能快速定位于满足要求的集群系统，通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下：（1）接收Agent模块：主要用于登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。（2）关系数据库及数据服务Agent：关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。（3）格式转换Agent模块：提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的，各用户对同一数据有不同的表示方法（对信息资源描述存在差异）由于XML文档中这种格式差异体现在与之相关的DTD/Schema上，因此经过格式转换，可使信息资源的格式对用户是透明的。（4） XML文档分析Agent模块：提取格式转换后的XML文档中各个标签，通过查询网格中间件中的关系数据库，实现用户信息请求任务与集群系统的对应关系，并得到满足条件的集群系统的相关信息，获取各集群系统的接口参数。（5）发送Agent模块：将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术，Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征，代表用户完成用户的任务，并能动态适应环境的变化更好地满足用户的需求，提高信息检索的能力。

科研方法与论文写作发布时间:2014-11-18 来源:毕业论文网　　一、科研论文及其特点　　论文　　论文是以事实和理论根据为基础，用无可辩驳的逻辑证明，议论说理的文章。论文必须具备三个基本要素，即论点、论据、论证。论点是作者对所议论的事情或问题所持的观点。论据是证明论点的根据，包括事实论据和理论论据两类。论证是用论据证明论点的过程。　　论文必须通过概念、判断和推理来阐明道理，必须具有严密的逻辑性、语言的准确性和概括性。　　科研论文　　科研论文(也称学术论文)是论文的一种。它是专门讨论和研究自然科学和社会科学领域中的问题和表述研究成果的理论文章。理解这个概念要注意把握两个方面：(1)学术论文是进行科学研究的一种手段;(2)学术论文是表述科研成果、进行学术交流的一种工具。科学研究是学术论文写作的基础，学术论文写作是该科学研究过程的继续，学术论文是科学研究的成果。　　科研论文的特点　　学术性。学术论文是科研成果的载体，是作者在某一科学领域中对某一课题进行潜心研究而获得的科研成果的认真表述，具有系统性和专门性。　　所谓学术，是指专门的、系统的学问。学术论文与一般论文的主要区别在于它具有学术性。一般论文可以有感而发，不求系统，只在某一点上谈感想、讲心得、说体会;学术论文则不是一般的点滴体会，必须有一定的理论深度，因而要求作者在专业上有深厚的理论功底，对所研究的课题有比较全面的了解，既了解它的历史，又掌握它的学术动态，把握好自己的主攻方向，解决学术上有价值的问题。　　科学性。揭示所研究事物或问题的本质，阐述客观规律。一般论文只需要占有一部分材料，选取能够证明自己观点的论据，可以比较自由地展开议论;而学术论文必须具有一定的理论价值，揭示事物的本质，反映客观规律。这就要求作者具有实事求是的态度，详细地、大量地占有材料，采用科学的研究方法，从中发现固有的本质和规律，并且准确地表述出来。　　创造性。学术论文中的理论观点是作者独到的理论或见解。学术论文的创新性表现在：选取的课题新、研究方法新、展开的角度新、取得的成果新等。作者能够站在某一学科的前沿，以自己的远见卓识捕捉住合适的研究对象，灵敏地发现需要解决的问题，深入研究并取得突破性的成果，提出富有创见的的理论或观点，在理论和实践上较之前人有创造性的进展。　　科学研究的意义在于发现和创新。没有发现或创新的研究，或重复研究，必然造成时间、精力和财力的浪费。学术论文能够写出自己新的发现、新创造、新见解，能够在学术上有所突破，乃至填补一项空白，当然是非常理想的。但是，对于一般研究者来说，并非是轻而易举的事。中小学教师主要的任务是教书育人，我们不能用过高的标准要求他们论文的学术前沿水平。只要他们的论文有理论意义或实践意义，有新意，就应该予以肯定。所谓有新意，即能够对前人的研究成果，或对别人所作出的结论进行实事求是的补充和修订，加以捍卫或否定，而且有理有据，能够自圆其说，都可以算是一家之言;只要选题有新的角度、材料上有新的发现、论证上有新的进展、观点上有新的突破或者在认识上比前人有所提高，也可以说在一定程度上具备了创造性。　　二、科研论文的选题　　选题的原则　　价值性原则。也叫需要性原则，即选择具有应用价值或理论价值的课题，它是选题的主要依据。科研课题的价值主要表现在两个方面：一是应用价值，即社会主义物质文明建设和精神文明建设中亟待解决的课题。也可以理解为所谓的“社会热点问题”。选择这类课题，社会需要，人们关心，研究目标明确，一旦突破，必然会带来显著的社会效益或经济效益。选择这类课题进行研究，要注意研究成果的可操作性。例如，当前下岗职工再就业问题，如何实施素质教育的问题，就属于这一类课题。二是理论价值。有些研究项目，属于基础理论研究项目，虽然目前还不能应用于社会实践，但是它对于科学文化的发展，对于解决理论上的疑难问题具有重大价值，或者对于应用课题的研究具有指导意义。例如，数学上的“歌德巴赫猜想”。研究这类课题，必须要掌握研究领域的学术动态。还有一些课题，既有理论价值，又有应用价值，当然是更好的选择对象了。例如，公有制在社会主义市场经济条件下的实现形式问题，它既是一个重大的理论问题，也是当前国有企业改革的关键问题。　　创新性原则。即选择的课题要有创见，有新意，有特色。在选题过程中，要注意把握两点，一是选题要防止雷同，防止步别人后尘;二是要考虑所选择的课题，能否研究出新的成果。创新性原则具体表现在三个方面：(1)别人未曾涉足的领域，填补学术上的一项空白。客观世界是多样化的、复杂的和不断发展的，不管科学怎样发达，总有尚待人们去研究、去认识的新课题。选择这样的课题进行研究，一旦有所突破，就能把科学推向前进。(2)对前人的研究成果有重要的补充或发展。客观事物是不断发展的，人类的实践也是不断发展的，因此，人们的认识也永远不会停留在一个水平上。前人的理论或学说总有需要补充或发展的地方。事实上，多数理论都是在后人的不断补充和完善中发展起来的。选择这类课题，也是很有意义的。例如，如何当好班主任，这可以说是一个老生常谈的课题。但是，如果结合素质教育的实施，从一个新的角度去研究，就具有创新性。(3)对通说中的某些错误进行纠正。有些理论，一直被人们认为是对的，成了通说，看起来好象是对的，其实不对，或者在某些方面是错误的，应该有新的认识。如果我们通过研究，能够对其进行纠正，也是一种创见。　　可行性原则。根据自己进行科研和写作的主观、客观条件进行选题。选择科研课题，既要考虑课题研究的必要性，又要考虑自己完成研究和写作的可能性。有些课题，虽然很有价值，但是，作者力不从心，无法完成或无法圆满完成，也是不适合的。因此，选择科研课题时，一定要考虑完成课题的主观条件和客观条件。主观条件包括：(1)专业特长与优势。这是一项非常重要的主观条件。所选择的课题，应该是自己经过认真学习、钻研的必然结果。自己对所研究的学科领域有比较多的积累，不但对前人取得的成果、达到的水平比较熟悉，而且对遗留的问题、争论的问题也比较清楚。在所研究的学科领域中，研究的薄弱环节是什么?在哪些方面仍有研究的必要和广阔前景?学科的发展趋势如何?对这些问题，应该心中有数。这样，才能避免盲目性，有利于发挥自己的专长和优势。搞学术研究，要扬长避短，扬长，即发挥自己的专业特长和优势;避短，即不要去搞自己不熟悉的课题。(2)自己的研究兴趣。研究兴趣是人们进行活动的内部动力。达尔文曾经说过：“我记得从我在学校时期的性格来说，其中对我后来发生影响的，就是我有强烈而多样的兴趣，沉溺于自己感兴趣的东西，深喜了解任何复杂的问题和事物。”这就是达尔文研究和撰写《物种起源》等论著的动力之一。陈景润如果不是对“歌德巴赫猜想”有浓厚的兴趣，也不可能以那么坚强的毅力，进行成千上万次的演算。(3)自己的能力与水平。选题的大小、难易要根据自己的水平。一般说来，论题大，难度也大;论题小，难度也小。因此，对于初次搞科研的同志来说，选题宜小不宜大。先从较小的课题开始，有了一定的积累之后，再研究较大的课题。有些较大的课题，一个人不可能完成，则需要集体合作。客观条件包括：(1)资料来源。科研资料的来源，一靠文献，二靠调查，三靠试验。因此，在选题时，要考虑课题所需的资料类型和来源。(2)时间。有无充足的时间进行研究。(3)经费。有无完成课题所需的最低限度的经费保证。(4)导师。有无导师的指导。　　三、科研课题的论证　　课题论证是对选定的科研课题进行分析、预测和评价。目的在于避免选题过程中的盲目性。尤其是在申请科研经费时，更要进行认真的论证。我国目前国家资助的科研项目，分为国家级、省部级、区县级和单位级。在申请科研经费时，首先要进行申请立项，申请被批准立项之后，还要进行开题论证。申请立项和开题论证，二者的内容基本相同，只不过后者比前者更详尽。进行课题论证，本身也是一种研究，确切地说，是研究的前期准备工作。它必须依据翔实的资料，以齐全的参考文献和精细的分析来支持自己的课题主张。通过课题论证，进一步完善研究方案，创设落实的条件。　　课题论证的主要内容包括：　　课题名称、类别、负责人(课题组成员)　　本课题研究的具体内容　　国内外同类课题的研究状况　　本课题的理论意义和实践意义　　完成本课题的研究条件　　(1)课题负责人的研究水平和时间保证　　(2)课题组成员的研究水平和时间保证　　(3)资料设备和研究手段　　(4)课题组人员分工　　本课题研究所采用的方法　　本课题研究的预期成果和研究计划　　经费预算　　专家评定意见

信息检索与利用论文怎么写

信息检索与利用论文1500字怎么写的

我给你找了一篇，摘要如下:随着Internet在全世界范围内迅猛发展，网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此，对网络信息的检索技术及其发展趋势进行探讨和研究，是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究，并对网络信息检索的发展趋势进行了预测，旨在寻找提高网络信息检索的手段和方法的有效途径，并最终提高网络信息的检索效果，使得网络信息资源得到充分有效地利用。全文主要包括六个部分，第一部分为网络信息检索述评，主要是阐述了网络信息检索所涉及到的有关概念，如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等，旨在弄清网络信息检索的技术支撑，为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述，主要从其检索机制入手，分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括，并对目前流行的搜索引擎进行科学的分类第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限，主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 xt文本，贴在下面:1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展，网上信息资源也以指数形式增加，网络信息资源作为一种新型的信息资源，发挥着越来越重要的作用，其内容几乎无所不包，涉及政治、经济、文化、科学、娱乐等各个方面；其媒体形式多种多样，包括文本、图形、图像、声音、视频等；其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的信息需求查找所需信息的过程和技术，所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程，也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中，通过人工查找索引找到对应的文献索引号再获取文献原文；②联机信息检索。这其中也存在一个发展过程，由检索结果来看，从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文；由检索方法来看，从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中，全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速，成为深受人们关注的一种非常有效的信息检索技术，它是从大容量文档库中精确定位所需信息的最有效手段l3]。2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br，singsystelns)。只要能够进入hitemct就能够通过浏览器，利用HTTP协议提供的WV乃万服务，浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点，它是以一定的技术和策略在intemet中搜集和发现网络信息，并对网络信息进行理解、提取和处理，建立数据库，同时以认倪b形式提供一个检索界面，供用户输入检索关键词、词组或短语等检索项，代替用户在数据库中查找出与提问相匹配的记录，同时返回结果且按相关度排序输出，从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息，另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要，所以它是面向用户的，采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。4网络信息检索效果评价目前，得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式，其中以查全率和查准率最为重要。现代信息科学技术的发展，为人们提供了多种多样的信息获取和传送方法及技术，从“信源”与“用户”的关系来看，可分为两种模式:“信息推送”模式(InformationPush)，由“信源”主动将信息推送给“用户”，如电台广播；“信息拉取”模式(InformationPull)，由“用户”主动从“信源”中拉取信息，如查询数据库。1信息推送技术“推”模式网络信息服务，是基于网络环境下的一种新的服务形式，即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术，是因为借助该技术使网络信息服务具有主动性，不仅可以直接把用户感兴趣的信息推送给用户，而且可有效地利用网络资源，提高网络吞吐率；再者，Push技术还允许用户与提供信息的服务器之间透明地进行通信，极大地方便了用户。所谓Push技术，又称“推送”技术、Web广播(Webeasting)技术，实质上是一种软件，这种软件可以根据用户定义的准则，自动搜集用户最可能发生兴趣的信息，然后在适当的时候，将其传递至用户指定的“地点”。因而从技术上看，“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件，该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息)，还能够主动从网上搜寻信息，并经过筛选、分类、排序，然后按照每个用户的特定要求，主动推送给用户141。(l)信息推送方式。信息推送方式分两类，即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式，它将某些页面定义为浏览器中的频道，用户可像选择电视频道那样接受有兴趣的网播信息；邮件式推送，用电子邮件方式主动将所推送信息发布给各用户，如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户，如某企业、某组织、某个人的网页；专用式推送。采用专门的信息发送和接收软件，信源将信息推送给专门用户，如机密的点对点通信。智能推送方式有:操作式推送(客户推送式)，由客户数据操作启动信息推送。当某客户对数据进行操作时，把修改后的新数据存入数据库后，即启动信息推送过程，将新数据推送给其他客户；触发式推送(服务器推送式)，由ll硕士学位论文MASTER，5THESIS⑧数据库中的触发器启动信息推送过程，将新数据推送给其他客户，当数据发生变化，如出现增加(Insert)、删除(Delete)、修改(update)操作时，触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而，主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说，Push技术可以针对用户的特定信息需求进行检索、加工和推送，并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至，Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索，收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性，控制搜索的深度，过滤掉不必要的信息，将认飞b站点的资源列表及其更新状态配以客户代理完成。因而，网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动，有效地利用网络带宽，比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要，灵活地设置连接时间，通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现，不仅需要信息技术设备，而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段，“推”技术还存在很大的缺陷，比如:不能确保信息发送，没有状态跟踪，缺乏群组管理功能等等。因此，国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制)，摒弃了Push的诸多缺点之，2硕士学位论文MASTER，5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户，同时保持连续性的用户资料，随时可以知道谁收到了信息，信息是否为该用户定制，用户环境是否适当等等[刀。2信息拉取技术常用的、典型的信息拉取技术，如数据库查询，是由用户主动查询数据库，从数据库中拉取所需信息。其主要优点是:针对性好，用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上，用户面对的不止是一个数据库，而是拥有海量信息的hitemet环境，因此，各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点，在实际中常常是将两者的结合起来，常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息)，再有针对性地拉取所需的信息。这样，便于用户注意信息变化的新情况和趋势，从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息，然后根据用户的兴趣，再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中，允许用户随时中断、定格在所感兴趣的网页上，作进一步的搜索，主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中，根据用户输入的关键词，信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务，又可以减轻网络的负担，并便于扩大用户范围[8]。因此，信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。3Web挖掘技术随着功temet的发展，W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时，又使得人类的信息环境更加复杂，人硕士学位论文MASTER，5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决，相反，随着信息技术的发展，信息量的激增，造成了个人实际所需信息量与研触b上的海量信息之间的矛盾，因而也就造成了个人利用信息的困难。在这种情况下，虽然出现了叭范b环境下的专门检索工具，但是由于搜索引擎是由传统检索技术发展而来，在当前用户要求不断提高的情况下，传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源，W七b挖掘作为新的知识挖掘的手段，为Web信息的利用提出了新的解决方案叨。3，1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料，从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段，它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识，以实现Web资源的自动检索，提高web数据的利用效率。随着Intemet的进一步延伸，Web数据越来越庞大，种类越来越繁多，数据的形式既有文本数据信息，也有图像、声音、视频等多媒体数据信息，既有来自于数据库的结构化数据，也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而，对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度，主要研究如何处理文本格式和超级链接文档，这些数据是非结构化或半结构化的。处理非结构化数据时，一般采用词集方法，用一组组词条来表示非结构化的文本，先用信息评价技术对文本进行预处理，然后采取相应的模型进行表示。另外，还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时，可以利用一些相关算法给超级链接分类，寻求认七b页面关系，抽取规则。同处理非结构化数据相比，由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构，使得表示半结构化数据的方法更加丰富。二是从数据库的角度，主要处理结构化的W匕b数据库，也就是超级链接14⑧蕊誉蕊文档，数据多采用带权图或者对象嵌入模型(OME)，或者关系数据库表示，应用一定的算法，寻找出网站页面之间的内在联系，其主要目的是推导出Web站点结构或者把W匕b变成一个数据库，以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化，研究认触b上的高级查询语言，使其不局限于关键字查询；二是信息的集成与抽取，把每个W七b站点及其包装程序看成是一个认范b数据源，通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成；三是叭几b站点的创建与重构，通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘，主要指的是通过对W七b文档的分析，从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系，W七b结构挖掘关注的则是网站中的超级链接结构之间的关系，找到隐藏在一个个页面之后的链接结构模型，可以用这个模型对W七b页面重新分类，也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据，页内结构可以用超文本标记语言等表示成树型结构，此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系，如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类，可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息，通过研究W亡b页面内部结构，可寻找出与用户选定的页面集合信息相关的其它页面信息模式，以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析，从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式，它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点，使得在认七b网上进行内容挖掘比较困难，它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构，当信息用户访问web站点时，与访问相关的页面、时间、用户ro等信息，日志中都作了相应的记录，因而对其进行信息l5硕士学位论文MASTER，5THESIS⑥挖掘是可行的，也是有意义的。在技术实践过程中，一般先把日志中的数据映射成诸种关系信息，并对其进行预处理，包括清除与挖掘不相关的信息等。为了提高性能，目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度，行为挖掘也应用到站点结构信息和页面内容信息等方面。2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程，由于用传统的信息检索技术对W己b文档的处理不够深入，因此，可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善，具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息，然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息，就可以对W七b网页的信息有大致的了解，决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别，利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围，大大提高查准率。目前，己经出现了很多文本分类技术，如TFIFF算法等，由于文本挖掘与搜索引擎所处理的文本几乎完全一样，所以可以直接将文本分类技术应用于搜索引擎的自动分类之中，通过对大量页面自动、快速、有效的分类，来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反，文本聚类指的是将文档集合中的文档分为更小的簇，要求同一簇内的文档之间的相似性尽可能大，而簇与簇之间的关系尽可能小，这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别，从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比，它的分类更加迅速、客观。同时，文本聚类可与文本分类技术相结合，使得信息处理更加方便。可以对检索结果进行分类，并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构，一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理，所以搜索引擎一般不处理这些信16硕士学位论文MASTER，S竹正515⑧息，而是将叭触b页面作为平面机构的文本进行处理。但是，在从触b结构挖掘中，通过对研触b文档组织结构的挖掘，搜索引擎可以进一步扩展搜索引擎的检索能力，改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容，通过研触b行为挖掘，不仅可以发现多数用户潜在共同的行为模式，而且还可以发现单个用户的个性化行为，对这些模式进行研究，可以更好地对搜索引擎的检索效果进行反馈，以便进一步改进搜索策略，提高检索效果。3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示，都不能完全解决W七b数据的非结构性问题，特别是汉语句子格式繁多，虚词、实词没有绝对的界限，切分词难度大，这些是造成无法对数据进行完全自动标引的根本性问题，因此，从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储，并最终实现智能化、自动化的数据表示和标引，以供搜索之用。通常数据的表示和数据的利用形式是相互关联的，因此，设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引，这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展，网站的内容也越来越丰富，结构也越来越庞杂，用有向图表示巨型网站链接结构将不能满足数据处理的需要，需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流，那么，对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等，不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3)，eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性，客户端、代理服务器端缓存的存在，使用户访问日志分别存在于服务器、代理服务器和客户端，因此，从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理，形成一个个用户一次的访问期间。通常来讲，对于静态W七b网站，服务器端的日志容易取得，客户端和代l7理服务器用户访问日志不容易取得；其次，由于一个完整的W匕b是由一个个图片和框架页面组成的，而用户访问服务器也有并发性，在确定用户访问内容时，必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外，由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的，在处理海量Web用户访问日志中也需要重新设计算法结构〔41。4信息过滤技术hitemet开放式的环境，为人们检索和利用信息提供了极大的方便，但同时，网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为，第一，网络环境中信息的来源复杂多样，随意性大，任何人、任何单位不管其背景和动机如何都可以在网络上发布信息，信息的产生和传播没有经过筛选和审定，因此信息的可靠性、质量和价值成为用户普遍担心的一大问题；第二，目前大多数据搜索工具的检索范围是综合性的，它们的Robots尽可能地把各种网页抓回来，经过简单加工后存放在数据库中备检；第三，搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配，返回给用户的就是所有包括关键词的文献，这样的检索结果在数量上远远超出了用户的吸收和使用能力，让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视，它的目的就是让搜索引擎具有更多的“智力”，让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中，从关键词的选择、检索范围的确定到检索结果的精炼，帮助用户在浩如烟海的信息中找到和需求真正相关的资料。1信息过滤模型信息过滤其实质仍是一种信息检索技术，因此它仍依托于某一信息检索模型，不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中，它以文献中是否包含关键词来作为取舍标准，因此，它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时，用户提交关键词。