学术论文百科

信息检索论文摘要两个字用什么字体

发布时间:2024-07-11 16:17:19

信息检索论文摘要两个字用什么字体

论文提要(黑体四号字) 提要内容(宋体小四号字) 关键词(黑体小四号字):关键词内容(宋体小四号字)论文标题(黑体小三号字)或(黑体小二号) 一级标题使用黑体四号字,居中。注释使用宋体5号字。其它均使用宋体小四号字。 基本版式正文内容宋体小四号字(论文标题、一级标题和注释除外)参考文献:(黑体五号字) 文献内容(宋体5号字)

摘要:摘要标题字体为宋体三号,需要加粗。摘要正文为宋体小四号。关键词:关键词标题为宋体小四号加粗字体 ,需要顶格写,关键词正文为宋体小四号不加粗字体。扩展资料:毕业论文其它排版格式:1、各级标题与正文一级标题用宋体三号字,空两格,加粗。二级标题用宋体四号字,空两个字符,加粗。三、四级标题用宋体小四号,空两个字符,加粗。正文用宋体小四号,行间距采用5倍行距。2、正文中的图表正文中图、表均需编排序号,图、表题目以及说明用宋体五号字体。3、致谢致谢:简述自己通过做毕业论文的体会,并应对指导教师和协助完成论文的有关人员表示谢意。致谢标题用宋体三号加粗字体,需居中。内容用四号字体,不加粗。4、参考文献参考文献:在毕业论文末尾要列出在论文中参考过的所有专著、论文及其他资料,所列参考文献可以按文中参考或引证的先后顺序排列,也可以按照音序排列(正文中则采用相应的哈佛式参考文献标注而不出现序号)。

学术论文论文格式及字体要求  论文格式字体要求:  页面设置  页边距上8cm,下5cm,左0cm(装订线5cm),右5cm,页脚5cm。  封面格式设置  字体:四号宋体,居中,指导教师签名必须手写。  题目  中文,三号黑体加粗居中;英文,三号Time New Roman字体, 加粗居中。题目和摘要之间空一行(小四号)。  摘要  (1)中文摘要和关键词(行间距单倍) 摘要(黑体五号加粗,左起空两格): XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX(五号楷体)  关键词(黑体五号加粗,左起空两格):XXXX,XXXXX,XXXXX,XXXX(五号楷体)  (2)英文摘要和关键词(行间距单倍)(置于参考文献后。参考文献与英文摘要之间空一行,小四号)  Abstract(Time New Roman字体,五号,加粗,顶格):XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX(Time New Roman字体,五号) Keywords(Time New Roman字体,五号,加粗,顶格): XXXX,XXXXX,XXXXX,XXXX(Time New Roman字体,五号)   正文层次格式(关键词和正文之间空一行,小四号)  (四号黑体加粗,左起空两格)  正文左起空两格,使用小四号宋体(行间距5倍)  1 XXXX (小四号宋体加粗,左起空两格,行间距5倍) 正文左起空两格,使用小四号宋体(行间距5倍) 第三级标题与第二级标题相同  致谢(正文和致谢之间空一行,小四号)  致谢(居中,黑体,加粗,小四号)  ************************************************************************************(中文小四号宋体,英文小四号Time New Roman字体,行间距单倍)  参考文献(致谢和参考文献之间空一行,小四号):  参考文献(居中,黑体,加粗,小四号)  [1]*****************(中文五号宋体,英文五号Time New Roman字体,行间距单倍) 参考文献格式设置:  期刊:[序号]作者题名[J]期刊名称,出版年份,卷号(期号):起止页码。  书籍:[序号]著者书名[M]版次出版地:出版社,出版年份:起止页码。  论文集:[序号]著者题名[C]编者论文集名出版地 学位论文:[序号]作者题名[D]保存地:保存单位,年份 专利文献:[序号]专利所有者专利题名[P]专利国别:专利号,发布日期。  国家、国际标准:[序号]标准代号,标准名称[S]出版地:出版者,出版年份。  电子文献:[序号]作者电子文献题名[EB/OL]电子文献的出版或可获得地址,发表或更新日期/引用日期(任选) 页码规范: 位于页面底端右侧 图片格式设置:  字体:黑体,五号 行间距5倍 表格格式设置: 表格内容格式设置:  字体:五号,宋体 行间距5倍 表头格式设置:  字体:黑体,五号 行间距5倍  引文标注:(作者姓名、年份),多个姓名中间用分号分隔。注意引文标注与注释的区别,引文标注是注明文献出处,注释是对文中概念、观点等的进一步补充或解释说明。  脚注:用脚注方式标注,脚注格式设置如下:引用脚注格式,页面底端,五号字体。

一、封面  题目:小二号黑体加粗居中  各项内容:四号宋体居中  二、目录  目录:二号黑体加粗居中  章节条目:五号宋体  行距:单倍行距  三、论文题目  小一号黑体加粗居中  四、中文摘要  1、摘要:小二号黑体加粗居中  2、摘要内容字体:小四号宋体  3、字数:300字左右  4、行距:20磅  5、关键词: 四号宋体,加粗 词3-5个,每个 词间空一格  五、英文摘要  1、ABSTRACT:小二号 Times New Roman  2、内容字体:小四号 Times New Roman  3、单倍行距  4、Keywords: 四号 加粗 词3-5个,小四号 Times New R 词间空一格  六、绪论  小二号黑体加粗居中  内容500字左右,小四号宋体,行距:20磅  七、正文  (一)正文用小四号宋体  (二)安保、管理类毕业论文各章节按照一、二、三、四、五级标题序号字体格式  章:标题 小二号黑体,加粗,居中  节:标题 小三号黑体,加粗,居中  一级标题序号 如:一、二、三、 标题四号黑体,加粗,顶格  二级标题序号 如:(一)(二)(三) 标题小四号宋体,不加粗,顶格  三级标题序号 如: 标题小四号宋体,不加粗,缩进二个字  四级标题序号 如:(1)(2)(3) 标题小四号宋体,不加粗,缩进二个字  五级标题序号 如:①②③ 标题小四号宋体,不加粗,缩进二个字  医学、体育类毕业论文各章序号用阿拉伯数字编码,层次格式为:1××××(小2号黑体,居中)××××××××××××××(内容用4号宋体)1××××(3号黑体,居左)×××××××××××××(内容用4号宋体)1××××(小3号黑体,居左)××××××××××××××××××××(内容用4号宋体)①××××(用与内容同样大小的宋体)××××(用与内容同样大小的宋体)  (三)表格  每个表格应有自己的表序和表题,表序和表题应写在表格上方正中表序后空一格书写表题表格允许下页接续写,表题可省略,表头应重复写,并在右上方写"续表××"  (四)插图  每幅图应有图序和图题,图序和图题应放在图位下方居中处图应在描图纸或在洁白纸上用墨线绘成,也可以用计算机绘图  (五)论文中的图、表、公式、算式等,一律用阿拉伯数字分别依序连编编排序号序号分章依序编码,其标注形式应便于互相区别,可分别为:图1、表2、公式(5)等  文中的阿拉伯数字一律用半角标示  八、结束语  小二号黑体加粗居中内容300字左右,小四号宋体,行距:20磅  九、致谢  小二号黑体加粗居中内容小四号宋体,行距:20磅  十、参考文献  (一)小二号黑体加粗居中内容8-10篇, 五号宋体, 行距:20磅参考文献以文献在整个论文中出现的次序用[1]、[2]、[3]……形式统一排序、依次列出  (二)参考文献的格式:  著作:[序号]作者译者书名版本出版地出版社出版时间引用部分起止页  期刊:[序号]作者译者文章题目期刊名年份卷号(期数) 引用部分起止页  会议论文集:[序号]作者译者文章名文集名 会址开会年出版地出版者出版时间引用部分起止页  (学术堂提供更多论文知识)

信息检索论文摘要多少字

论文摘要一般多少字,一般论文的摘要的字数大概在200字,不要求太多。论文摘要的要求是简单明了,篇幅不要超过全文的5%,以在写论文的时候一定要了解清楚摘要的要求。

据学术堂了解,论文的摘要是整篇论文最重要的部分,在阅读论文的第一时间就会看到摘要,摘要的内容要体现出来整篇文章的中心思想,所以在字数上也有规定的,一般论文的摘要的字数大概在200字左右不要太多。论文摘要的要求是简单明了,篇幅不要超过全文的5%,所以在写论文的时候一定要了解清楚摘要的要求。

看这些人回答,我都笑了。职称论文全文2000字-3000字之间,摘要300-400字左右即可。本、专科毕业论文,全文一般5000字-10000字。摘要500-1000字即可。硕博论文,全文20000字-30000字。摘要1000字左右,也有要求1000多或者2000字以内的。

论文摘要是文章的内容不加诠释和评论的简短陈述。为了国际交流,还应有外文(多用英文)摘要。摘要是在文章全文完成之后提炼出来的,具有短、精、完整三大特点。摘要应具有独立性的自含性、即不阅读原文的全文.就能获得必要的信息要是没有特别要求的话,200—400字直接差不多就行。

论文信息检索报告是什么字体

学术论文格式模板其实有很多,关键是看是哪种学术论文模板。有SCI的、EI的、中文核心的、一般普刊的,而且调整论文格式可以直接用模板,把里面的内容替换为自己的论文内容即可,很简单的,如果你找不到合适的模板,可以给你个地方:。有很多论文模板和相关学习资料

题目二号姓名及其他的字体小四

没有具体的规定吧。。。。。+

毕业论文开题报告详细要求与格式由学术堂整理提供:  1、本课题的研究意义(选题依据,课题来源,学术价值和对社会、经济发展 和科技进步的意义):  1)四号字,中文宋体,西文Times New Roman,即一般默认字体,不加粗,单倍行距  2)小四字,中文宋体,西文Times New Roman,即一般默认字体,不加粗,5倍行距  1)或2)均可  2、本课题的基本内容简介(拟解决的主要学术或技术问题和关键技术及难 点,拟采取的技术手段及实施方案、预计可获得的成果,可能取得的创新之处):  1)四号字,中文宋体,西文Times New Roman,即一般默认字体,不加粗,单倍行距  2)小四字,中文宋体,西文Times New Roman,即一般默认字体,不加粗, 5倍行距  1)或2)均可  3、论文提纲:  1)四号字,中文宋体,西文Times New Roman,即一般默认字体,不加粗,单倍行距  2)小四字,中文宋体,西文Times New Roman,即一般默认字体,不加粗, 5倍行距  格式1)或2)均可,章节名称参照论文格式要求  4、研究进程计划及时间安排(计划进度、预计完成的日期,阶段性成果的 形式):  1)四号字,中文宋体,西文Times New Roman,即一般默认字体,不加粗,单倍行距  2)小四字,中文宋体,西文Times New Roman,即一般默认字体,不加粗, 5倍行距  格式1)或2)均可,时间按毕业设计进行周书写,  如: 第一周 至 第三周 具体工作;第四周 具体工作;;至 第十周 具体工作。

信息检索论文摘要写什么

一、什么是论文的摘要?简单的来讲,论文摘要就是整篇文章和浓缩预览,它被排放在论文的首要位置。论文摘要是文章的灵魂,很多老师审稿时没有时间查看论文正文内容,往往是通过文章的摘要了解论文的研究内容及研究层次,因此,写好论文摘要无比重要。二、什么是论文的关键词?关键词是反映论文主题概念的词、词组或术语。对文献检索开发利用有着重要的作用。是随着计算机的出现,为适应引编制自动化的需要而产生的一种主题检索类型。是指那些出现在文献的标题以及摘要、正文中,对表达文献主题内容实质意义的,未经规范化处理的自然语言词汇,在作文献索引和检索时能反映文章内容信息的单词或术语,既反映文章主题的关键词汇。要求每个关键词与论文主题概念直接相对应,即有专指性。一组关键词要能反映单元主题和多元主题,能反映文章的专业主题和相关主题,即有全面性。关键词对揭示和描述文献主题内容来说是非常重要的。(本回答由学术堂整理提供)

毕业论文摘要的书写方法和技巧 摘要的作用 摘要也就是内容提要,是论文中不可缺少的一部分。论文摘要是一篇具有独立性的短文,有其特别的地方。它是建立在对论文进行总结的基础之上,用简单、明确、易懂、精辟的语言对全文内容加以概括,留主干去枝叶,提取论文的主要信息。作者的观点、论文的主要内容、研究成果、独到的见解,这些都应该在摘要中体现出来。好的摘要便于索引与查找,易于收录到大型资料库中并为他人提供信息。因此摘要在资料交流方面承担着至关重要的作用。 书写摘要的基本规范和原则 (1)论文摘要分为中文摘要和外文(一般为英文)摘要。摘要在篇幅方面的限定,不同的学校和机构有不同的要求,通常中文摘要不超过300字,英文摘要不超过250个实词,中英文摘要应一致。毕业论文摘要可适当增加篇幅。 (2)多向指导教师请教,并根据提供的意见及时修改,以期达到更高水平。 (3)摘要是完整的短文,具有独立性,可以单独使用。即使不看论文全文的内容,仍然可以理解论文的主要内容、作者的新观点和想法、课题所要实现的目的、采取的方法、研究的结果与结论。 (4)叙述完整,突出逻辑性,短文结构要合理。 (5)要求文字简明扼要,不容赘言,提取重要内容,不含前言、背景等细节部分,去掉旧结论、原始数据,不加评论和注释。采用直接表述的方法,删除不必要的文学修饰。摘要中不应包括作者将来的计划以及与此课题无关的内容,做到用最少的文字提供最大的信息量。 (6)摘要中不使用特殊字符,也不使用图表和化学结构式,以及由特殊字符组成的数学表达式,不列举例证。 摘要的四要素 目的、方法、结果和结论称为摘要的四要素。 (1)目的:指出研究的范围、目的、重要性、任务和前提条件,不是主题的简单重复。 (2)方法:简述课题的工作流程,研究了哪些主要内容,在这个过程中都做了哪些工作,包括对象、原理、条件、程序、手段等。 (3)结果:陈述研究之后重要的新发现、新成果及价值,包括通过调研、实验、观察取得的数据和结果,并剖析其不理想的局限部分。 (4)结论:通过对这个课题的研究所得出的重要结论,包括从中取得证实的正确观点,进行分析研究,比较预测其在实际生活中运用的意义,理论与实际相结合的价值。 撰写步骤 摘要作为一种特殊的陈述性短文,书写的步骤也与普通类型的文章有所不同。摘要的写作时间通常在论文的完成之后,但也可以采用提早写的方式,然后再边写论文边修改摘要。首先,从摘要的四要素出发,通读论文全文,仔细将文中的重要内容一一列出,特别是每段的主题句和论文结尾的归纳总结,保留梗概与精华部分,提取用于编写摘要的关键信息。然后,看这些信息能否完全、准确的回答摘要的四要素所涉及的问题,并要求语句精炼。若不足以回答这些问题,则重新阅读论文,摘录相应的内容进行补充。最后,将这些零散信息,组成符合语法规则和逻辑规则的完整句子,再进一步组成通畅的短文,通读此短文,反复修改,达到摘要的要求。 关于英文摘要 (1)英文摘要的写作方法要依据公认的写作规范。 (2)尽量使用简单句,避免句型单调,表达要求准确完整。 (3)正确使用冠词。 (4)使用标准英语书写,避免使用口语,应使用易于理解的常用词,不用生僻词汇。 (5)作者所做工作用过去时,结论用现在时。 (6)多使用主动语态。 关键词 关键词是为了文献标引工作从报告、论文中选出来用以表示全文主题内容信息目的单词术语。每篇报告、论文选取3~8个词作为关键词,以显著的字符另起一行,排在摘要的左方。如有可能,尽量用《汉语主题词表》等词表提供的规范词。为了国际交流,应标注与中文对应的英文关键词。 关键词是主题词中的一类。主题词是一种新型检索词汇,多用于计算机网络检索。 关键词分为中文关键词和与之对应的英文关键词,分别置于中文摘要和英文摘要之下。为便于他人的检索,不能使用过于宽泛的词语。选择关键词既可以从论文的各级标题入手,也可以从论文本身的内容选取,将选出的关键词按照所涉及领域的范围从大到小顺序列出。

摘要是大致描述你在这篇论文中要表达的内容,通常100-150字左右关键词是文中提到较多的比较重要的4-5个词语

信息检索的数据并行性研究 CAJ原文下载 PDF原文下载 【作者】 赵棒未 徐国华 白素怀 【刊名】 情报学报 1994年02期 编辑部Email 《中文核心期刊要目总览》来源期刊 ASPT来源刊 CJFD收录期刊 【机构】 西安电子科技大学 【聚类检索】 同类文献 引用文献 被引用文献 【摘要】 信息检索的并行性研究包括数据并行和功能并行,而数据并行可表现为SIMD系统中的数据级并行以及分布式系统或MIMD系统中的数据集并行。本文讨论数据级并行检索和数据库的分布式并行检索两种方式,并在二者间作一简单比较。 【光盘号】 INFO9404

信息检索与利用论文摘要

现代信息检索论文: 现代信息检索方法的探讨 要想充分利用这些浩如烟海的文献信息资源,必须借助各种各样的检索工具。同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。 一、布尔检索 利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。 下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。 检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。 二、信息检索 信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。 信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。 目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。 三、知识检索 知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。 知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果。

我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 xt文本,贴在下面:1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。4网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。1信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之,2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。2信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。3Web挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。3,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔41。4信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。1信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词。

【作者】 赵棒未 徐国华 白素怀【刊名】 情报学报 1994年02期 编辑部Email《中文核心期刊要目总览》来源期刊 ASPT来源刊 CJFD收录期刊【机构】 西安电子科技大学【聚类检索】 同类文献 引用文献 被引用文献【摘要】 信息检索的并行性研究包括数据并行和功能并行,而数据并行可表现为SIMD系统中的数据级并行以及分布式系统或MIMD系统中的数据集并行。本文讨论数据级并行检索和数据库的分布式并行检索两种方式,并在二者间作一简单比较。

相关百科
热门百科
首页
发表服务