信息检索与利用(第三版)第四章 信息检索原理与技术

第四章 信息检索原理与技术

4.1 信息检索的概念

信息检索是指从信息集合中迅速、准确地查找出所需信息的程序和方法。信息检索有广义、狭义之分
• 广义信息检索:信息存储与检索两个过程。
• 狭义信息检索:仅指从检索工具或数据库中准确的检出信息这一过程,即信息查找的过程

4.1.1 信息检索的含义

1.狭义的信息检索(Information Retrieval)是指依据一定的方法,从已经组织好的大量有关信息集合中,查找并获取特定的相关信息的过程。这里的信息集合,往往指关于文献或信息的线索,得到检索结果后一般还要通过检索命中的文献或信息线索索取原始文献或信息。
2.广义的检索包括信息的存储和检索两个过程(Information Storage and Retrieval)。信息存储是将大量无序的信息集中起来,根据信息源的外部特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的数据库或检索系统,供人们检索和利用。而检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。

4.1.2 信息检索的实质、过程

信息检索全过程包括两个方面:

1.信息标引和存储过程。标引是用检索语言和分类号、主题词表示信息,通过对大量无序的信息资源进行标引处理,使之有序化,并按科学的方法存储组成检索系统,这是组织检索系统的过程。

2.信息的需求分析和检索过程。分析用户的信息需求,利用组织好的检索系统,按照系统提供的检索方法和途径检索有关信息,这是检索系统的应用过程。
信息检索的实质是将描述用户所需信息的提问特征,与信息存储的检索标识进行比较,从中找出与提问特征一致或基本一致的信息。
信息检索是对信息集合与需求集合的匹配与选择。

4.1.3 信息检索的作用

1.避免重复研究或走弯路
2.节省学习者的时间
3.是获取新知识的捷径

4.1.4 信息存储与信息检索的关系

信息存储与信息检索是密不可分的两个过程,同时又是互逆的。存储是为了检索,而检索必须先要存储。没有存储检索就无从谈起。这是存储与检索相辅相成、相互依存的辩证关系。

4.2 信息检索的类型

4.2.1 按检索的方式分

1.手工检索

手工检索简称“手检”,是指人们通过手工的方式检索信息,其使用的检索工具主要是书本型、卡片式的信息系统,即目录、索引、文摘和各类工具书。检索过程是由人工以手工的方式完成的。

2.计算机检索

计算机检索简称“机捡”,是指人们利用数据库、计算机软件技术、计算机网络及通信系统进行的信息检索,其检索过程是在人机的协同作用下完成的。

3.综合检索

在文献信息检索的过程中,既使用手工检索方式,又使用计算机检索方式,也就是同时使用两种检索方式。

4.2.2 按检索内容或检索目标分

1.文献型信息检索

文献型信息检索是指利用检索工具或检索系统查找文献的过程,包括文献线索检索和文献全文检索。
文献线索检索是指利用检索工具或检索系统查找文献的出处,检索结果是文献线索。
文献全文检索是以文献所含的全部信息作为检索内容,即检索系统存储的是整篇文章或整部图书的全部内容。文献全文检索是当前计算机信息检索的发展方向之一。

2.事实型信息检索

事实型信息检索是以特定客观事实为检索对象,借助于提供事实检索的检索工具与数据库进行捡索。其检索结果为基本事实。如某个字、词的查找,某一诗词文句的查找,某一年、月、日的查找,某一地名的查找,某一人物的查找,某一机构的查找.某一事件的查找,某一法规制度的查找,某一图像的查找,某一数据、参数、公式或化学分子式的查找等。

3.数据型信息检索

数据型信息检索是一种确定性检索,是以数值或图表形式表示的数据为检索对象的信息检索,又称“数值检索”。检索系统中存储的是大量的数据,这些数据既包括物质的各种参数、电话号码、银行账号、观测数据、统计数据等数字数据,也包括图表、图谱、市场行情、化学分子式、物质的各种特性等非数字数据。

4.2.3 按系统中信息的组织方式分

1.全文检索
指检索系统中存储的是整篇文章乃至整本图书。用户根据个人的需求从中获取有关的章、节、段、句等信息,并且还可以做各种统计和分析。

2.超文本检索
超文本结构类似于人类的联想记忆结构,它采用了一种非线性的网状结构组织块状信息,没有固定的顺序.也不要求读者必须按照某个顺序来阅读。采用这种网状结构,各信息块很容易按照信息的原始结构或人们的“联想”关系加以组织。

3.超媒体检索
由于把多媒体信息引入超文本里.产生了多媒体超文本,也即超媒体。它是对超文本检索的补充,其存储对象超出了文本范畴,融入了静态、动态图像及声音等多媒体信息。信息存储结构从单维发展到多维,存储空间范围不断扩大。

4.2.4 以文献的外部特征为检索途径

1.题名途径
文献题名是指文献的名称,如图书的书名、期刊的刊名、报纸的报纸名称、光盘的光盘名称等。它是认识一篇文献的起点。通过题名途径可查找图书、期刊、单篇文献。检索工具中的书名索引、会议名称索引、书目索引、刊名索引等都提供了从题名进行文献检索的途径。

2.著作途径
文献著者是指对文献内容负有责任的个人或机关团体,也就是我们常说的作者、编者、译者等。著者途径也是人们检索文献经常使用的一条途径,包含个人著者、团体著者、专利发明人、专利权人、合同户、学术会议主办单位等。利用责任者途径检索文献,主要利用的是作者索引、作者目录、个人作者索引、团体作者索引、专利权人索引等。

3.代码途径
很多文献因其本身特点有特定序号,如科技报告号、专利号、标准号、信息收藏单位的入藏号、ISBN、ISSN等。代码途径就是依据文献信息出版时所编的代码顺序来检索文献信息的途径。这些序号往往具有唯一性,可以据此识别特定的文献信息。依据这些序号数字顺序可编制序号索引,提供序号检索途径。同时,许多检索系统利用事物本身具有的某种符号代码编制成分子式、元素符号、结构式等索引,提供从特定符号代码顺序进行检索的途径,如化合物索引。

4.2.5 以文献的内部特征为检索途径

1.分类途径
分类途径是以课题的学科属性为出发点,按学科分类体系来查找文献信息,以分类作为检索点,利用学科分类表、分类目录、分类索引等按学科体系编排的检索工具来查找有关某一学科或相关学科领域的文献信息。它能满足族性检索的需求。

2.主题途径
主题途径是利用信息的主题内容进行检索的途径,即利用从自然语言中抽象出来的,或者经过人工规范化的、能够代表信息内容的标引词来检索。它冲破了按学科分类的束缚,使分散在各个学科领域里的有关同一课题的信息集中于同一主题,使用时就如同查字典一样方便和快捷。其最大优点是把同性质的事物集中于一处,使用户在检索时便于选取,而且将同类事物集中在一起的方法符合人们的工作和生活习惯,直接而准确。

4.3 检索语言

4.3.1 检索语言的含义

检索语言是根据信息检索的需要而创造的专供信息存储和信息检索使用的一种人工语言。
检索语言是在文献信息检索过程中使用的特定语言形式,它的作用在于促成信息检索系统与检索用户的沟通。

4.3.2 检索语言的类型

1. 描述文献外部特征的语言
(1)题名语言
(2)著者语言
(3)代码语言

2.描述文献内部特征的语言

(1)分类语言
所谓“类”是指具有共同属性的事物的集合。每一种事物都有多种属性,用其某一种属性作为划分依据来对一事物进行划分就称为分类。分类是人类逻辑思维的一种最基本的形式。分类语言是用分类号表达学科体系的各种概念,将各种概念按学科性质进行分类和系统排列。

(2)主题语言
主题“是一组具有共性事物的总称,用以表达文献所论述和研究的具体对象和问题”,即文献的“中心内容”。每种文献都包含着若干主题,研究或阐述一个或多个问题。主题词就是表达主题概念的词汇。

4.4 检索系统与检索方法

4.4.1 检索系统

1.检索系统的概念
信息检索系统是为满足信息用户的检索需求而建立起来的、以提供信息检索为目的的信息存储与检索系统。
可以说,一个信息检索系统便是一定范围文献、信息的全部记录的有序集合。

2.检索系统的类型

(1) 按加工手段和技术设备分
可将检索系统分为:手工检索系统、机械检索系统、计算机检索系统。

(2) 按载体形式分
可分为卡片式、书本式、缩微式、磁性材料式等检索系统。

(3) 按著录格式分
可将检索系统分为目录、题录、文摘、索引、全文检索系统。

<1>目录检索系统
目录检索系统是对一些相关的文献,主要是单位出版物,如图书、期刊等,加以整理、分编,并按一定顺序组织起来形成的一种检索系统,主要记录这些出版物的出版单位、收藏单位及其他外部特征。

<2>题录型检索系统
题录型检索系统是以单篇文献为基本著录单位,将书刊、会议录等出版物中大量相关的单篇文献选出,对文献的外部特征,如文献题名、著者姓名、文献出处等加以描述,并按一定的顺序编排起来提供文献线索的检索系统,不收录内容摘要,一般用于快速报道文献信息。

<3>文摘型检索系统
文摘型检索系统是在文献题录基础上,加上文献篇首的摘要,或由标引人员以简练、准确的语言将文献信息的研究目的与方法、主题思想与基本观点、框架结构、实验结果与结论等摘录下来形成文摘,并按一定的方法著录、标引、组织起来的检索系统。

<4>索引型检索系统
索引型检索系统是将收录范围内的文献中的题名、主题、人名、地名等名词术语以及其他有关款目抽出,注明出处,并按一定的排检方式组织而成的一种检索系统。与目录相比,它有利于人们进行更深入的检索。

<5>全文检索系统
全文检索系统是在题录或文摘的基础上,加上完整出版物的全部内容,按一定的方法著录、标引、组织起来的检索系统。这种检索系统往往对文献全文中的词、词组及其位置等做更深入的加工、处理,一般采用自然语言进行自动标引,不仅方便人们一次性获取文献全文,而且提供更多的检索途径。

4.4.2 检索方法

1.常用法
常用法是利用检索工具查找信息的一种方法,因为这种方法是目前查找信息中最常使用的,故亦称常用法。

(1) 顺查法
是指按年代由远及近的顺序进行查找的方法,如检索“电视文化”这一课题,首先要弄清起始时间,即“电视文化”产生的时间是哪一年,然后从这一年开始查起,一直查到当前“电视文化”方面的相关信息为止。这样,“电视文化”课题就检索完毕。这种方法的查全率和查准率都较高,但是检索整个课题较费时费力。

(2) 倒查法
是指按年代由近及远的逆时间查找方法,这种方法多用于新课题、新观点、新理论、新技术的检索,检索的重点在近期信息上,只需查到基本满足需要时为止。使用这种方法可以最快地获得新资料,而且近期资料总是既概括、引用前期的成果,又反映最新的水平和动向,因此这种方法比较省力,但查全率不高。

(3) 抽查法
是一种针对学科发展特点,抓住该学科发展迅速、信息发表较多的年代(信息的高峰期),抽出一段时间(几年或十几年),再进行逐年检索的方法。这种方法费时较少,获得信息较多,检索效率较高。但是这种方法的成功率和有效率必须建立在熟悉学科发展特点的基础上。也就是说,只有对该学科或课题的发展熟悉的情况下,才适合使用。

2.追溯法
追溯法是一种跟踪查找的方法,即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。

3.循环法
循环法是常用法和追溯法的结合,检索时,先利用检索工具查出一批文献,然后选择出与检索课题针对性较强的文献,再按文献后所附的参考文献回溯查找,不断扩大检索线索,分期分段地交替进行,循环下去,直到满意为止。

4.检索方法的选择原则

(1) 检索条件
(2) 检索要求
(3) 学科特点

4.5 检索技术与检索效果

4.5.1 常用检索技术

1.布尔逻辑检索

(1)逻辑与“AND”
逻辑与(AND或“﹡”)是反映概念之间交叉和限定关系的一种组配方式,用以缩小检索范围,减少输出结果,提高查准率。

其检索表达式为:“A AND B”或“A*B”,即检索记录中必须同时包含A词与B词才算命中。

例如:“中国*对外贸易”。如查询“计算机文献检索”,提问式为:计算机and文献检索。如下图所示:

(2)逻辑或“OR”
逻辑或(OR或“+”)是反映概念之间并列关系的一种组配方式,使用它相当于增加检索词主题的同义词与近义词,可扩大检索范围、增加输出结果,提高查全率。

其检索表达式为:“A or B”或“A+B”,即检索记录中含有A词或者B词中的任何一词即可。

例如:“高清晰电视+HDTV”。如要查询有关股票和期货方面的文献,检索提问式应为:股票or期货。

(3)逻辑非“NOT”
逻辑非(NOT或“-”)可以用来排除不希望出现的检索词,它与逻辑与“AND”的作用类似,能够缩小命中信息的范围,提高检索的查准率。

其检索表达式为:“A NOT B”或“A-B”,即检索记录中包含A词但不含有B词。

例如:“能源-太阳能”。如要查询除成人教育以外的高等教育方面的文献,提问式为:高等教育not成人教育。

2.截词检索

(1)从截断字符的数量来看

<1> 无限截词
常用表示符号为“*”“/”“?”,一个无限截词符可代表多个字符,表示在检索词的词干后可加任意个字符或不加字符,常用于检索同一类词。

如使用“employ?”,可检索到:employ,employer,employers,employment等词。

<2> 有限截词
一个有限截词符只代表一个字符。常用符号“?”表示,代表这个单词中的某个字母可以任意变化,在检索词词干后可加一个或一个以上的有限截词符,一般有限截词符的数量有限制,其数目表示在词干后最多允许变化的字符个数
如“solut???”可检索到包含solution、solute和soluting等词在内的信息。

(2)根据截断的位置
<1> 后截词
后截词最常用,即将截词放在一个字符串之后,用以表示后面有限或无限个字符不影响其前面检索字符串的检索结果。
如:physic*,可检出的词汇有:physic、physical、physician、physicist、physics等。

<2> 前截词
前截词将截词符号置于一个字符串的前方,以表示其前方有限或无限个字符不会影响后面检索字符串的检索结果。

<3> 中截词
又称中间屏蔽,指将检索字符置于一个检索词中间,不影响前后字符串的检索结果。具体地说,就是在一串字符中插入一个或几个屏蔽符号“?”或“!”,表示在问号的相应位置上可转换数目相当的字符。

3.限制检索

(1)检索系统中的限制检索
在检索系统中,使用缩小和限定检索范围的方法称为限制检索。限定检索条件多种多样,主要和常用的是字段限制。
其中,主题字段如题名(Title)、叙词(Descriptor)、标识词(Identifier)、文摘(Abstract)等;非主题字段如作者(Author)、文献类型(Document Type)、语种(Language)、出版年份(Publication Year)等。

(2)搜索引擎中的限制检索
搜索引擎中的字段检索多表现为前缀符限制形式,其中,表示内容特征的主题字段有Title,Keywords,Subject,Summary等;表示外部特征的非主题字段限制有image,text,applet等;此外,搜索引擎还提供了带有典型网络检索特征的字段限制类型。

4.位置检索
位置算符用于表示词与词之间的相互关系和前后的次序,通过对检索词之间位置关系的限定,进一步增强选词指令的灵活性,提高检索的查全率与查准率。

(1)W算符(With)
通常写作A(nW)B,表示词A与词B之间至多可以插入n个其他的词(往往包括系统禁用词),同时A、B保持前后顺序不变。

(2)N算符(Near)
通常写作A(nN)B,表示A与B之间至多可以插入n个其他的词,同时A、B不必保持前后顺序。

(3)F算符(Field)
通常写作A(F)B,表示A、B必须同时出现在记录的同一字段中,如出现在篇名字段中,两词次序、A与B间加词个数不限。

(4)S算符(Subfield)
通常写作A(S)B,表示A与B必须同时在一个句子中或同一子字段内出现,但次序可随意变化,且各词间可加任意个词。

5.多媒体检索
基于内容的多媒体信息检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。它的研究目标是提供在没有人类参与的情况下能自动识别或理解声音、图像、视频重要特征的算法。

6.超文本检索
超文本检索时其内容排列是非线性的,按照知识(信息)单元及其关系建立起知识结构网络,操作时用鼠标去点击相关的知识单元,检索便可追踪下去,进入下面各层菜单。

4.5.2 检索效果

1.检索效果评价
检索效果是指检索系统检索信息的有效程度,反映了检索系统的检索能力。
(1) 质量标准
(2) 费用标准
(3) 时间标准
<1> 检索效果评价指标表

<2> 查全率和查准率
查全率
查全率是指检索出的相关信息量与系统中的相关信息总量之比。

查准率
查准率是指检索出的相关信息量与检索出的信息总量之比。

2.检索效果优化
<1> 提高检索系统的质量
<2> 提高用户利用检索系统的能力
<3> 制定优化的检索策略
① 提高查全率的方法
为了提高查全率,往往通过采用提高检索词的泛指度,选全同义词、近义词,多用截词符;减少使用逻辑“与”、逻辑“非”运算符,增加使用逻辑“或”运算符;取消某些限制符,在多字段或全文中检索;采用分类号检索等多种方法。
② 提高查准率的方法
为了提高查准率,往往通过采用提高检索词的专指度,增加或者使用下位词及专指性较强的自由词,少用截词符;增加使用逻辑“与”、逻辑“非”运算符,减少逻辑“或”运算符;多用限制符或限制字段;用文献的外部特征限制等多种方法。

4.6 检索步骤与检索策略

4.6.1 检索步骤
1.分析检索课题
2. 选择检索系统
3.确定检索途径和检索方法
4.构建检索式
5.检索并调整检索策略
6.获取原文

4.6.2 检索策略

1. 检索词
检索词,就是简明、准确地概括检索要求的词语。检索词是表达用户信息需求和检索课题内容的基本元素,也是计算机检索系统进行匹配的基本单元。

2. 检索式
检索式,又称检索提问式,是检索策略的某种具体体现。在计算机信息检索中,指在课题分析的基础上,根据所要检索的概念及其相互关系,确定检索词,并用系统支持的各种算符和其他连接符对检索词进行逻辑组配而形成的,全面表达检索提问的逻辑表达式。
面对一个课题,不应该只从现成的课题名称中抽取检索词或词组,应对课题名称进行切分、删除、替换、聚类、补充和组合,生成检索式,从而达到最佳检索效果。

3. 检索策略的制定
制定检索策略时不仅要全面、准确地对课题进行概念分析,确定概念单元和概念间的关系,而且要熟悉有关的检索系统,才能将概念单元转换成系统能够接受的检索词,并选择合适的方式组配起来,完整地表达自己的检索要求。
另外,还要掌握各种检索方法和途径,适当地运用到检索过程中去,才能取得较好的检索效果。

4. 检索策略的调整
用户在每一次检索中,都需根据系统显示的命中记录的内容和数量,判断自己的检索要求是否已得到满足,如果尚未得到满足,还应调整检索策略再次检索。

4.7 信息检索的原理
指对搜集到的文献信息进行加工处理,将文献的特征,如文献名称、著者、分类号、主题词、分子式或代码等著录下来,形成一条条文献线索,并将其按一定目的、方法加工整理成检索工具,或组成检索系统。

对所查的课题进行分析,找出检索提问特征,如主题词、分类号、著者、代码等,然后从检索工具或检索系统中准确地查找出来。

4.8 信息检索的意义
• 信息传播与控制的手段
• 获取知识的门径,学习的助手
• 科学研究的工具和指南
• 为科学决策和管理提供依据与支持

本文链接:https://my.lmcjl.com/post/14838.html

展开阅读全文

4 评论

留下您的评论.