如何写论文?写好论文?免费论文网提供各类免费论文写作素材!
当前位置:免费论文网 > 文秘写作 > 论文格式 > 信息检索论文3000字以

信息检索论文3000字以

来源:免费论文网 | 时间:2016-11-24 13:00:56 | 移动端:信息检索论文3000字以

篇一:信息检索论文范本

信息检索结课论文

题 学 院: 专 业:

学生姓名: ******

学 号:***********

授课教师: 李凤英

网络信息资源检索、技巧及问题研究

******

(桂林电子科技大学 艺术与设计学院,广西 桂林 541004)

摘 要 :互联网已经成为全球最大的信息资源库,这对于网络信息资源的检索提出了更高要求从网络信息资源的发展及探讨检索的意义入手,分析网络信息资源检索工具的类型内容和作用,探讨网络信息资源检索的若干技巧,指出网络信息资源在检索过程中存在着诸如信息质量网络检索工具信息用户等方面的问题,并提出了相应的解决对策,重点为网络用户介绍了一些常用的网络信息检索途径方法和技巧。 关键词:网络信息资源;检索途径;检索方法;检索技巧

中图分类号:G354 文献标识码.A

Techniques and problems of the network information resources

retrieval

******

(College of art and design of Guilin University of Electronic Technology, Guangxi Guilin 541004)

Abstract: the Internet has

become the world's largest information resource database, theretrievalof network information resources put forward higher requirements from the development of network information resourcesandto explorethe significance ofanalysis of the types of retrieval,content and function of the network information resource retrieval, researches on Techniques of network information resource retrieval, and points out that network information resources in the the retrieval process such as the existence of information quality of network information retrieval tools users and other issues, and the corresponding countermeasures are put forward, mainly introduces the retrieval methods and skills of some commonly used network information for Internet users. Keywords: network information resources; search; retrieval; Search Tips

1.网络信息资源及检索

网络信息资源是指以电子数据形式的文字图像、声音、动画等,以光磁等非纸质为载体存储,通过网络和计算机等方式再现的信息资源。或者说,是网络和计算机交流 利用所有

收稿日期: 2004-01-12

基金项目:国家自然科学基金项目(2002A1030405)

作者简介: ******(1975-),男,安徽马鞍山人,桂林电子科技大学硕士生,主要研究方向为移动通信理论与技术。

信息资源的总和。目前,网络信息已成为世界上信息量最丰富利用最便捷 用户群最大 拓展性最强的信息资源。据2013年12月《中国互联网状况》白皮书显示,截至2013年底,中国网民人数达到8亿多,年均增长3195万人,互联网普及率达到60.9%,超过世界平均水平;中国境内网站达323万个,比1997年增长了2152倍;中国拥有IPV4地址约2.3亿个,已成为世界第二大IPV4地址拥有国;中国宽带网民达到5.46亿人,手机网民达到2.33亿人 网民人数的迅速增加和信息需求的不断增强,促进了互联网的飞速发展,而网络机构及技术的快速发展,又极大地丰富了网络信息资源网络信息资源的发展,有效地补充了信息咨询机构的资源不足,使其信息资源保障能力大幅度提高基于信息资源的检索,无论是对于信息资源的提供者还是获取者都提出了更高的要求。

网络信息资源检索有别于传统的文献资源检索。其不同在于,它以计算机高速信息网络作为检索平台,对于用户检索提问以“匹配运算”方式,对存储在检索系统中的信息进行逻辑比对、组配,将符合者调出;与传统检索一样也是信息的查找过程,但需要人、 计算机 、互联网的协调来完成网络信息资源数量庞大内容繁杂且无序,对于信息提供者或获取者来说,快速准确高效获取网络信息资源,网络信息资源检索工具是必须面对的问题。同时在信息类型多样化,如何在巨大的网络信息中找到所需要的内容,是每个上网者都面临的问题。

2.基于网络信息资源的检索工具

快速准确高效地获取网络信息资源,是信息提供者或获取者追求的目标;而合理利用网络信息检索工具,则是实现其目标的有效途径。网络信息检索工具,泛指由因特网提供的网页信息资源检索和网站导航服务站点,通常又称搜索引擎 搜索引擎利用网络自动搜索技术,对各种互联网资源进行采集标引组织加工整理,并将其建立管理和存储信息的索引数据库,以此实现为用户提供基于数据库的检索服务主要有以下几种类型:

2.1关键词型

关键词型搜索引擎,是指根据用户在检索界面输入的检索词(词组或语句),与数据库中的索引记录进行匹配比较,以此查找用户所需信息的一种网络检索工具,如Google 百度等 它采用自动索引软件来发现收集并标引网页和建立数据库 其优点在于,信息量大更新及时,检索界面直观、简洁方便,而且绝大多数都支持布尔逻辑、截词运算模糊检索和自然语言检索等检索技术,并可准确表示检索需求。还在于,借助于全文检索技术,可实现网页内容的全文检索由于检索结果与输入的关键词相关,是一个个网页的地址和信息全文的小段文字提要,因此也称其为全文搜索引擎。其缺点是,返回的检索结果数量大,无关和冗余信息较多,用户必须从中进行筛选。

2.2目录型

目录型搜索引擎,或称指南目录,是一种按照某种分类体系编制 可供分类浏览和检索的等级结构式目录,属于浏览式搜索引擎,如雅虎搜狐等 用户通过浏览其树形分类目录,可循类逐层点击各大小类目,层层递进 不断缩小检索范围,最终获取所需信息 目录型搜索引擎采取人工方式或半自动方式,进行搜集信息 编写网站概述来形成摘要信息,并将这些信息置于分类目录体系中,用户从中可获得网站的站名、地址和内容简介 这种类型的检索工具层次和结构清晰、易于查找,网站简介一目了然 便于取舍由于人工的介入,确保了信息的准确性和较高的导航质量 其缺点是,有时分类目录体系不够完善与合理,人工介入引起维护量大,导致信息量少更新不及时查全率不高。

2.3元搜索型

元搜索引擎,也称集合型搜索引擎,如InfoSDogpile等 它包含多个单一型搜索引擎,在统一的用户查询界面与信息反馈形式下,共享多个搜索引擎的资源库,并以此为用户提供信息检索服务,因此又称为是对搜索引擎进行搜索的

引擎 用户为了全面 准确查询信息,需访问不止一个搜索引擎,并希望只通过一次性查询,获得多个搜索引擎的查询结果,而不是枯燥繁琐的重复劳动,而元搜索引擎可以满足用户这一要求它的最大特点,是没有属于自己的信息资源库,只相当于一个中间代理;还在于具有搜索范围广泛 查全率高,能够在较短时间提供相对全面准确的信息 之不足在于,不能充分概括所用搜索引擎的所有功能,用户需要对反馈结果进行进一步筛选。

2.4垂直搜索型

垂直搜索引擎是针对某个行业的专业搜索引擎,是搜索引擎的细分和延伸 其特点在于:针对某一特定的领域 人群 需求提供信息及相关服务,且“专、精、 深”,具有行业色彩,如音乐搜索、旅游搜索、车票搜索、文学搜索、视频搜索等,都有着较好的用户体验;硬件成本低,用户需求特定,查询方式多样,且具有行业化分工众多的专业 行业网站独立服务于互联网,从这一层面证明了互联网格局的多方面性 通用搜索引擎性质使然,决定其不能满足特殊领域和人群的精准化信息需求,而市场需求多元化又决定了搜索引擎服务模式的细分,以针对不同行业提供更加精确的行业服务。可以说,通用搜索引擎的发展,为垂直搜索引擎的出现提供了良好的市场空间,为垂直搜索引擎在互联网中占据部分市场提供了机会,因此也使搜索引擎行业细分化成为了必然。

3.网络信息资源检索的若干技巧

随着网络信息资源的发展,互联网已成为全球最大的信息资源库,这就为网络信息检索

的查全率查准率及效率提出了更高的要求然而,了解网络信息资源特征以及掌握网络信息检索技巧,是优化检索结果实现其要求的有效途径。

3.1选择适当的检索工具

各类搜索引擎的查询范围 检索功能各有侧重,因此根据检索主题的需要和要求,选择适当的检索工具,是提高检索查全率查准率及效率的首要条件选择检索工具应遵循以下原则:其一,以专业对口高质量为原则一般来说,网络资源信息检索应从本单位本地区或系统现有检索工具的实际出发,选择专业对口质量高的搜索引擎。其二,以先综合性后专业性为原则先考虑综合性的全文索引搜索引擎,然后选择专业性垂直搜索引擎加以补充这是由于综合性全文搜索引擎通常以全球网络资源为目标,而一些中小型垂直搜索引擎则以某一区域或专业的专题信息为侧重点,前者的搜索范围虽然广泛,但就某一局部或某个专业而言,内容却未必有后者的丰富和完备。其三,以先中文后外文为原则在选择语种方面,先考虑选用中文的检索工具或系统,然后考虑英文语种,最后使用其他语种,这是基于中国人语言实际而考虑的此外,选择检索工具应了解其工具特有的检索方式所支持的检索功能,以及了解和掌握检索结果有几种表达方式。

3.2选用贴切的关键词

选用贴切的关键词,既是检索中的技巧,也是检索经验积累的结果选用关键词能力的提升除了实践中不断尝试和积累外,还应掌握以下原则:其一,表述准确贴切网站或数据库都有自动搜索关键词的功能,因此,准确表述关键词是获得良好搜索结果的前提条件搜索结果欠佳。存在的问题有:主题思路正确,但不能正确的作出表述,如关键词语义不清或有错别字,因此应在提升关键词准确度上发力。其二,主题关联并简练搜索引擎要求关键词简练匹配,因此提交搜索请求,应把关键词提炼成简单的所希望找到的并与信息主题相关联的查询词关键词并不是越长越好,而是合适贴切。其三,使用多个关键字对于大部分搜索请求来说,都能够通过搜索网站找到需要的网页,但如果选择关键字不合适 贴切,搜索网站会返回很多不是所需的结果 如果将另一搜索目标相关的关键词加在一起搜索,返回的结果就会少很多,结果也会更加准确。

3.3构造正确的检索式

检索式是检索策略的具体体现,它控制着检索过程,构造是否合理 正确关系到检索结果一个好的检索式应准确地反映检索的内容主题,符合检索系统的功能 限制条件和规定,将检索结果控制在准确的范围内 基于布尔逻辑检索理论的成熟性,其理论便成为了构造检索表达式最基本、最简单的匹配模式。这是由于数据库或搜索引擎的基本检索命令,与布尔

篇二:信息检索论文

大数据时代信息检索的相关性

一.摘要

随着大数据时代的来临,信息资源也变的纷繁复杂、海量。如何便捷、准确地检索到所需信息已成为全球用户关注的焦点问题。今天,信息检索已经发展到网络化阶段,信息检索的对象已从过去相对"封闭"由独立数据库集中管理的信息内容扩展到如今开放、动态、更新快、分布广泛、管理松散的网络内容。本文阐述并分析信息检索相关性的内涵和影响相关性的因素,最后提出一些大数据时代环境下提高检索系统相关性的一些路径。

二.概述

2.1检索相关性的定义及其内涵

信息检索的相关性一般是指信息检索系统针对用户的查询从文档集中检出的文档与查询之间的一种匹配关系。我们可以从用户进行检索的途径和检索语言的分类这两个方面来分析这种匹配关系。建立信息检索系统的目的就是使用户能够查找出所需要的信息,即检出相关信息,屏蔽无关信息。当代信息环境下,信息检索的核心是在系统文档集中为用户检出最相关的子文档集,并如用户所期望的那样把检出文档按相关度降序排列。实际上相关性问题涉及到检索系统的诸多环节。如何提高检索相关度是信息检索实践和理论研究要解决的核心问题。 检索系统组成框架如下图所示:

2.2影响检索相关性的因素

由上图分析,检索系统的工作过程包含存储和检索两个互逆的过程。信息检索是建立在信息存储有序化的基础之上的。系统根据自身特性、用户特征在一定专业范围内对信息源进行连续性的采集、分析、选择,建立充足而适用的系统待检数据库,还要进行标引、描叙、加工等产生的一条条记录作为一篇篇文章的代表。检索是存储的逆过程,但同样用户需要先对自己的信息需求进行概念分析形成内容标识,然后把这些标识以及各标识之间的关系形式化地表示为查询表达式,检索时用户输入查询表达式,系统的检索代理软件自动将其与数据库倒排文档中的标识进行匹配运算。将命中的结果以一定的顺序显示给用户,用户对初步检索结果集进行相关性判断,如果满意则获取信息,如果不满意,可以修改或重构查询表达式,继续检索,直到得到满意结果为止。从而可见检索的相关性判断有两个环节:(1).系统的相关性判断,即系统自动对相关度进行计算输出检索结果。(2).用户的相关性判断,即用户在选择系统,拟定查询表达式及在系统命中的结果集中进行取舍时所做出的主观判断。

根据检索系统工作原理,影响检索的相关性有以下几个因素:

2.2.1用户检索经验

丰富的信息检索经验的用户可以更好地,更有效地使用的IR系统检索出自己想要的信息。相反,缺乏经验的用户可能需要花大量的时间对检索结果的查看,分析等,才能找到理想的检索式子。实际上一般用户识别到的信息需求与实际真正的信息需求有差距,而用户表达出的信息需求即构造的查询表达式又与上述二者有区别。

2.2.2检索系统的数据库

文献数据库的规模,收录范围等是能否检索到以及检索到多少相关文献的前提。当数据库收录多,信息量广,那么检索的相关结果相应来说也会多,相关的结果可能性也会增大。相反,检索的结果就会少,检索出想要的结果概率就低。

2.2.3几种基本的检索模型

(1).布尔模型

布尔模型是一个以集合论和布尔代数为理论基础的简单检索模型,它用关键 字组合来表示文档信息,关键词的权值为布尔变量,如果某关键字在文档中出现,则取值为1,否则为0。其中查询和文档均表示为布尔表达式,文档表示成所有词

的“与”关系。

优点:(1).简单:形式清楚、检索速度快、实现方法简单易于用户理解现代很多搜索引擎中仍然包含布尔模型的思想,如Google的高级检索。(2).自我保护功能:暗暗地降低用户对搜索系统的期望,使自己不在责任方,检索结果不好的原因在于用户构造查询不好。

缺点:(1).只能严格匹配(得分不是0就是1),不能近似或者部分匹配,多个结果无法排序

(2). 无法精确表达文档信息的内容,因此检索性能较差,一般用户构造查询不是很容易,构造不利可能造成结果过多或者过少。

(2).向量空间模型

向量空间模型对所有文档以及用户的查询提问式都用一组关键字(标引词)集合所形成的向量来表示。其中查询和文档都转化成标引项及其权重组成的向量表示,都可以看成空间中的点。

优点:把对文档内容和查询要求的处理简化为向量空间中向量的运算,克服了布尔模型的二值评价的缺点,可以计算出文档与查询式的相对相关程度。因而可以 很容易地进行输出结果的排序,用户相关性反馈机制也很容易实现。

缺点:模型假设向量空间的各维之间相互正交(即各关键字之间相互独立),没有考虑关键字间的相关性,事实上不是完全独立的。

(3).概率检索模型

通过概率的方法将查询和文档联系起来,考虑关键字之间、关键字和文档之间的内在联系,以贝叶斯公式为理论基础,利用它们的概率相依性进行信息检索。利用关键词在文档中的权重,描述出各关键词在相关和不相关文档中的分布,

这样每个查询的文档就按照符合提问的关键词权重之和进行排序。包括Logistic Regression模型和最经典的二元独立概率模型等。

优缺点:概率模型中文档可以按照他们相关概率递减的顺序来计算秩,其缺点在于开始时需要猜想把文档分为相关和不相关的两个集合,实际上这种模型没有考虑索引术语在文档中的频率,因为所有的权重都是二元的,而索引术语都是相互独立的。

三.提高检索相关性的路径

3.1提高检索相关性的用户分析

用户是信息检索活动的主体,是检索结果的最终判定者和使用者,从提出信息 需求的时刻起,用户所进行的每一个步骤都与最后的检索结果相关,是相关性评价的另一极点。从用户的角度看,提高信息检索相关性需提高用户的一下几种能力。

3.1.1提高用户对检索系统选择的能力

用户在信息检索之前也必须选择能够满足自己需求的信息检索系统,这是用户获得相关文档的前提。用户对系统的正确选择依赖于用户对信息需求的正确认知,即首先要分析自己的信息需求属于哪一领域或哪一学科,是应用型的还是研究型的等。

3.1.2提高用户对检索结果判断的能力

针对同样的一个检索结果,相关领域知识水平高,判断力强的人在进行检索时表现得更有目的性,检索出来的信息质量更高,更有效率。而随着知识水平的降低,对所要检索的内容也会变得模糊,需要对检索的结果进行详细分析,多次判断,可能需要花很多时间才能检索出自己想要的。例如:想从网上找些时间序列数据,直接百度搜索“时间序列数据”出来的一般是关于时间序列数据分析的。这时如果换个搜索表达式为“时间序列数据网站”,可以找到一些论坛提供了一些数据网站地址,那么现在就可以直接进入时间序列数据网站找数据就可以了。

3.1.3提高用户对信息需求的认知能力

用户对信息的真实(客观)需求包括隐性需求和显性需求。对于显性需求,用户必然会进行满足需求的工作;而对于隐性需求,因为用户并没有认识到它的存在,所以不会设法去满足它,这是与用户的知识水平和用户对信息需求的认识能力相关的。所以用户需要提高自己的相关知识,提高信息需求的认识能力。

3.1.4提高用户对信息需求的表达能力

信息需求的表达语句与相关的文献中的语句会相呼应,用户不但要对自己的需求有确切的认识,还要将这种认识明确地表达出来,而且要符合一般该类文献的写作风格、用词特点,这样检索的结果相关性会得到提高。

3.2提高检索相关性的系统分析

系统是相关性评价的一个重要点,检索系统性能的好坏直接影响到反馈结果质量的高低。从系统的角度看,提高信息检索的相关性可以从以下几个方面来考虑。

3.2.1系统设计的用户考虑

在设计信息检索系统的过程中应充分考虑用户的需求,以用户为中心,从人性化服务的理念设计系统,帮助用户发现问题、认识问题、提出问题、修正问题及寻求解决途径等。实践证明,一个好的信息检索系统不仅应该能够及时有效地响 应用户的信息提问,具有高查全率和查准率,另一个值得重视的是,系统能否引导用户的信息行为,帮助用户进行正确的决策选择,激发用户新的信息需求。因而在信息检索系统设计的过程中应建立以用户为中心的思想,减少其不确定性因素。

3.2.2系统相关算法的优化

目前检索的几种常用模型、算法,各自都存在不足, 如基于布尔模型的相关度测度算法无法实现反馈结果的排序;向量空间模型的相关度测度算法尽管能够方便实现结果排序,但在相关度的计算过程中没有考虑关键词之间的相互联系等。尤其是在大数据,海量信息时代,一种效率高的算法十分有重要,有必要对相关算法进行优化,改进,使得检索容易,智能化且结果与查询语句吻合。

3.2.3系统基于内容的理解

智能检索系统需建立大规模的知识库,在此基础上对自然语言文本表述的文 档主题和查询语句进行语法,语义分析,从而可在内容层面上真正理解并准确描述文档所论述的主题和理解用户的查询意图,即达到对文档内容和用户提问内容的理解,而非标引词与提问词的字面匹配。

四.参考文献

Al-Maskari, A. and M. Sanderson (2011). "The effect of user characteristics on search effectiveness in 47(5): 719-729.

Lv, Y. and C. Zhai (2009). "Adaptive Relevance Feedback in Information Retrieval."

"<检索相关性及其提高路径_赵荣.pdf>." "<网络时代信息检索的发展趋势_丁伟国.pdf>." "<网络信息检索的相关性问题_陆小辉.pdf>."

篇三:信息检索论文

检索课题:企业办公信息管理系统的设计与实现

一、分析研究课题

21世纪,计算机技术,尤其是Internet/Intranet及其相关技术的飞速发展,对传统办公与管理方式带来了巨大的冲击,目前的办公与管理已呈现出自动化与网络化的趋势。从长远的观点来看,建设办公信息管理系统不仅可以通过计算机提高管理、办公的科学性,同时可以通过网络,充分、合理地利用大范围的资源,而且通过员工参与管理,提高其主人公意识与团队协作精神。

信息管理系统(Management Information System),简称MIS,是一个以人为主导,利用计算机硬件、软件、网络通信设备以及其他办公设备,进行信息的收集、传输、加工、储存、更新和维护,以企业战略竞优,提高效益和效率为目的,支持企业高层决策、中层控制、基层运作的集成化的人机系统。MIS全面使用现代计算机技术、网络通讯%
信息检索论文3000字以》由:免费论文网互联网用户整理提供;
链接地址:http://www.csmayi.cn/show/103022.html
转载请保留,谢谢!

相关文章