【研究生论文写作指导】第 1 章 文献信息检索基础
- 1.1 文献信息检索概述
- 1.1.1 文献信息检索简史
- 1.1.2 文献信息检索的基本概念
- 1.1.3 文献信息检索的类型
- 1.2 文献信息检索的途径、方法和步骤
- 1.2.1 文献信息检索的途径
- 1.2.2 文献信息检索的方法
- 1.2.3 文献信息检索的步骤
- 1.3 计算机信息检索
- 1.3.1 布尔逻辑检索
- 1.3.2 截词检索
- 1.3.3 位置检索
- 1.3.4 限制检索
- 1.3.5 加权检索
- 1.3.6 聚类检索
1.1 文献信息检索概述
1.1.1 文献信息检索简史
- 文献信息源于文献索引工作及参考咨询工作
- 1948年,穆尔斯第一次使用“信息检索”这个术语
- 20世纪50年代,计算机领域“穿孔卡片”等数据录入技术和设备
- 互联网使信息资源共享成为可能
- 信息轰炸带来信息分类不准确等问题
网络信息特点
- 数量庞杂
- 有序和无序并存
- 内容与类型无限
- 动态性高
- 优劣混杂
- 缺乏统一组织与控制
1.1.2 文献信息检索的基本概念
- 信息的概念
- 香农
- 信息是用来消除不确定性的东西
- 控制论创始人维纳
- 信息是人们在适应外部世界并 使这种适应反作用与外部世界的过程中,同外部世界进行相互交换的内容的名称
- 我国国家标准
- 物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性。
- 信息既不是物质,也不是能量,它在物质运动过程中所起的作用是表达它所属的物质系统。
- 在同其他任何物质系统全面相互作用(联系)的过程中,以质、能波动的形式所呈现的结构、状态和历史。
- 信息的基本特征
- 客观性
- 普遍性
- 共享性
- 依附性
- 可传递性
- 时效性
- 信息、知识、文献的概念及相互关系
- 知识
- 是人类在改造客观世界的实践过程中的科学总结,是人们对客观事物的理性认识。
- 知识来源于人们在实践活动中获得的大量信息,是人脑对客观事物所产生的信息加工物。
- 信息被人脑感受,经理性加工后,成为系统化的信息,这种信息就是知识
- 知识特征
- 实践性
- 继承性
- 科学性
- 意识性
- 信息性
- 渗透性
- 情报
- 情报是指被传递的知识或事实,是知识的激活,是运用一定的媒体(载体),越过空间和时间传递给特定用户,解决科研、生产中的具体问题所需要的特定的知识和信息。
- 情报就是知识通过传递并发生作用的部分,或者说是传递中有用的知识。
- 情报的属性
- 知识性
- 传递性
- 效用性
- 文献
- 通过一定的方法和手段、运用一定的意义表达和记录体系记录在一定载体上的有历史价值和研究价值的知识。
- 构成文献的四要素
- 知识内容
- 信息符号
- 载体材料
- 记录方式
- 信息、知识、情报和文献的相互关系
- 自然现象(社会现象)–信息–知识–文献
- 文献信息资源的类型
- 载体形态和制作方式划分
- 刻写型文献信息
- 印刷型文献信息
- 微缩型文献信息
- 声像型文献信息
- 电子型文献信息
- 出版形式划分
- 图书(普通书籍、工具书)
- 期刊、报纸
- 期刊又称杂志,一般是指具有固定提名,定期或不定期出版的连续出版物。
- 特点
- 出版周期短
- 报道文献速度快
- 内容新颖
- 发行及影响面广
- 能及时反映科学技术中的新成果、新水平、新动向
- 每期载有卷号或年月顺序号
- 其内容多数是由许多短篇文章编辑而成的
- 期刊发表的论文大多数是原始文献,许多新成果、新观点、新方法往往首先在期刊上刊登。
- 科学技术研究人员应熟悉本专业有关的期刊,常常阅读期刊可以了解行业动态,掌握研究进展,开阔思路并吸收新的成果。
- 期刊论文是文献的主要类型,是检索工具报道的主要对象。
- 报告
- 报告是指科学研究课程进展情况的实际记录和研究成果的系统总结。
- 特点
- 内容详尽、专深
- 每份报告都有机构名称和连续编号
- 一个报告一册
- 页数不等
- 不定期出版
- 类型
- 技术报告
- 札记
- 论文
- 备忘录
- 通报
- 可行性报告市场预测报告
- 报告- -般单独成册,有具体的篇名、机构名称和统一的连续编号(报告名)。
- 划分
- 保密
- 一定时间后往往会转为解密报告
- 解密
- 非密
- 非密控制发行
- 非密公开发行
- 保密
- 会议文献
- 指在各种学术会议上宣读,提交、发表的学术论文、报告和讨论记录等文献资料。
- 此类文献一般都要经过学术机构的严格挑选,代表某学科领域的最新成就,反映该学科领域的最新水平和发展趋势。
- 会议文献是了解国际及各国科技水平、动态及发展趋势的重要情报来源。
- 类型
- 国际会议
- 全国会议
- 地区性会议
- 会议文献
- 会前文献
- 论文预印本(Preprint)
- 论文摘要
- 会后文献
- 会议录(Proceedings)——会议结束后出版的论文汇编
- 会前文献
- 专利文献
- 由专利申请人向政府或专设机构递交的发明创造的专利说明书及相关资料。
- 特点
- 实用性
- 可直接使用
- 新颖性
- 时间性
- 公布快速
- 内容
- 专利说明书
- 其发明解决了什么特殊问题、解决的方法、对旧有产品的改进及其他用途等
- 申请书
- 专利文献
- 对企业引进技术和设备,以及保护企业自身利益的技术起着非常重要的作用。
- 专利文献已成为一个重要的情报来源。
- 专利分类表
- 专利索引
- 专利报道
- 专利说明书
- 学位论文
- 技术标准
- 档案资料
- 政府出版物
- 产品样本
- 加工深度
- 零次文献信息
- 未以公开形式进入社会使用的实验记录、会议记录、内部档案、论文手稿、设计草稿
- 特点
- 内容新颖
- 不成熟
- 不定型
- 一次文献信息
- 以作者本人的研究工作或成果为依据写的,已公开发行或加入社会使用。
- 专著
- 学术论文
- 专利说明书
- 学术报告
- 以作者本人的研究工作或成果为依据写的,已公开发行或加入社会使用。
- 二次文献信息
- 对一次文献信息进行整理、加工后得到的信息
- 目录
- 索引
- 文摘
- 比较全面、系统地反映某个学科、专业或专题在一定时空范围内的文献线索。
- 特点
- 汇集性
- 检索性
- 对一次文献信息进行整理、加工后得到的信息
- 三次文献信息
- 根据一定的目的和需求,在大量利用一、二次文献信息的基础上,对有关知识信息进行综合、分析、提炼、重组而生成的再生信息资源。
- 有较高的实际使用价值,能直接被参考和借鉴。
- 如
- 教科书
- 技术书
- 参考工具书
- 综述
- 特点
- 综合性高
- 针对性强
- 系统性好
- 知识信息面广
- 零次文献信息
- 出版形式和内容公开程度
- 白色文献
- 一切正式出版并在社会成员中公开流通的文献
- 图书
- 报纸
- 期刊
- 白色文献是当今社会利用率最高的文献。
- 一切正式出版并在社会成员中公开流通的文献
- 灰色文献
- 非公开发行的内部文献或限制流通的文献
- 从正规渠道难以获得,被称为“非常见文献”或“特种文献”、
- 内部期刊
- 会议文献
- 专利文献
- 技术档案
- 学位论文
- 技术标准
- 政府出版物
- 科技报告
- 产品资料
- 出版量小,发行渠道复杂,流通范围有一定限制,不易收集
- 黑色文献
- 人们未破译或未识别其中信息的文献
- 考古发现的古老文字
- 未经分析厘定的文献
- 处于保密状态或不愿公开其内容的文献
- 未解密的档案
- 个人日记
- 私人信件
- 这类文献除作者及特殊人员外,一般社会成员极难获得和利用。
- 人们未破译或未识别其中信息的文献
- 白色文献
1.1.3 文献信息检索的类型
文献信息检索
-
指从以任何方式组成的文献信息集合中,查找特定用户在特定时间和条件下所需信息的方法与过程
-
信息标引和存储过程
- 对大量无序的信息资源进行标引处理,使之有序化
- 科学存储,组成检索工具或检索文档,即组织检索系统的过程
-
信息的需求分析和检索过程
- 分析用户的信息需求
- 利用已组织好的检索系统,按照系统提供的方法与途径检索有关信息,即检索系统的应用过程
-
信息检索方式划分
- 手工检索
- 计算机检索
- 脱机检索
- 联机检索
- 光盘检索
- 网络检索
- 综合检索
-
系统中信息的组织方式划分
- 全文检索
- 超文本检索
- 超媒体检索
-
检索内容或检索目标划分
- 文献型信息检索
- 利用检索工具或检索系统查找文献的过程
- 文献线索检索
- 利用检索工具或检索系统查找文献的出处,检索结果是文献线索。
- 包括书名或论文题目、著者、出版者、出版地、出版时间等文献外部特征。
- 文献全文检索
- 以文献所含的全部信息作为检索内容,即检索系统存储的是整篇文章或整部图书的全部内容。
- 主要是用自然语言表达检索课题,较适用于某些参考价值大的经典性文章。
- 文献全文检索也是当前计算机信息检索的发展方向之一。
- 事实型信息检索
- 数据型信息检索
- 文献型信息检索
1.2 文献信息检索的途径、方法和步骤
1.2.1 文献信息检索的途径
文献信息检索
- 将用户提交的、包含特定文献信息需求的检索式与文献信息检索系统中的信息集合进行相符性比较的过程
- 相符性比较是建立在检索语言基础之上的。
文献信息检索的途径
- 利用信息的某种特征作为检索标识来查找相关信息的途径。
- 一般要根据已知信息需求、已掌握的文献线索及检索工具的实际情况,有针对性地选择合适的检索途径。
- 检索途径分为
- 内容特征检索途径
- 形式特征检索途径
- 内容特征检索途径
- 分类途径
- 按学科分类体系来检索文献。以知识体系为中心,比较能体现学科系统性,反映学科与事物的隶属、派生与平行的关系,便于我们从学科所属的范围来查找文献资料。
- 适用于族性检索,能够保证较高的查全率。
- 主题词(关键词)途径
- 通过反映文献资料内容的主题词来检索文献。
- 几乎所有的检索工具和检索系统都提供主题词(关键词)途径。
- 检索依据
- 主题目录
- 主题索引
- 关键词索引
- 叙词索引
- 检索时首先要分析主题概念,选择相应的主题词或关键词,再按照字顺查找,进而得到所需信息。
- 适用于特性检索,能够保证查准率,所以对于一些检索主题新颖、复杂、专深、具体的检索课题宜选用这种检索途径。
- 分类途径
- 形式特征检索途径
- 题名途径
- 排检规则
- 简称缩写
- 与著者相同的字译问题
- 责任者途径
- 外国著者姓名的倒置和取舍规则
- 不同语种之间著者姓名的字译系统
- 代码途径
- 引文途径
- 其他检索途径
- 题名途径
1.2.2 文献信息检索的方法
直接法
- 浏览法
- 直接通过浏览、查阅文献原文来获取所需信息的方法。
- 优点
- 直接获取原文
- 直接判断是否需要文献所包含的信息
- 缺点
- 一定的盲目性和偶然性,难以保证查全率
- 且费时费力
- 对检索人员的要求比较高
- 追溯法(扩展法/追踪法)
- 利用已知文献的某种指引(如文献附的参考文献、注释、辅助索引、附录等)来获取所需信息的方法
- 这是一种最简捷的扩大信息来源的方法。
- 根据已知文献指引,查找到一批相关文献,再根据相关文献的有关指引扩大并发现新的线索,进一步来查找。
- 因此最好选用质量较高的述评和专著来进行文献追溯。
工具法
- 顺查法
- 倒查法
- 抽查法
综合法
1.2.3 文献信息检索的步骤
文献信息检索的基本步骤
- 分析信息需求
- 明确本次检索的主要内容及涉及学科
- 所需信息的文献类型、语种、地区、时间等
- 选择检索系统(工具)
- 查找专业信息用专业性强的检索系统
- 优先选择权威、全面、方便的检索系统
- 确定检索途径与方法
- 编制检索表达式
- 获取信息线索
- 获取所需信息
1.3 计算机信息检索
计算机检索的过程
- 将检索提问标识与检索系统中的信息特征标识相匹配的过程。
- 优势
- 数据库更新速度快
- 检索途径多
- 检索人员可随时检索到所需的最新信息
- 几乎所有的检索系统都有布尔逻辑检索、截词检索。
1.3.1 布尔逻辑检索
布尔逻辑检索
- 利用布尔逻辑算符进行不同检索词或其他条件的逻辑组配的技术,是常见的计算机检索技术。
- 基本的布尔逻辑算符
- 逻辑“与”
- 一种用来组配具有交叉关系概念的技术,其组配符号为“and”或“*”
- “A* B"或“A andB" ,即可获得所需文献。
- 利用逻辑“与”可以缩小检索范围,有利于提高检索的专指性和查准率。
- 逻辑“或”
- 一种用来组配具有并列关系概念的技术
- 可将具有并列关系的概念,如同义词、近义词、相关词进行组配
- 其组配符号为“or”或“+”
- “A+B"或“A or B”,即可获得所需文献。
- 利用逻辑“或”,可以扩大检索范围,增加检索结果,提高查全率。
- 逻辑“非”
- 一种用来组配具有排除关系概念的技术,其组配符号为“not”或“一”。
- “A- B"或“A not B",即可获得所需文献。
- 利用逻辑“非”可以缩小检索范围,排除无关的文献,提高查准率。
- 布尔逻辑算符的运算次序
- 用布尔逻辑算符组配检索词构成的检索提问式,逻辑算符AND、OR、NOT的运算次序在不同的检索系统中有不同的规定。
- 有括号
- 括号内的逻辑运算先执行。
- 无括号
- NOT最先执行,AND其次执行,OR最后执行。
- AND最先执行,NOT其次执行,OR最后执行。
- OR最先执行,AND其次执行,NOT最后执行。
- 按自然顺序,AND.OR、NOT谁在先就先执行谁。
- 对于同一个布尔逻辑提问式,不同的运算次序会有不同的运算结果
- 逻辑“与”
1.3.2 截词检索
- 检索者将检索词在他认为较合适的地方加上截词符断开,利用词的一个局部进行检索。
- 截词符可用来屏蔽未输入字符,解决由于派生词列举不全而造成的漏检,提高了检索效率。
- 截词的位置划分
- 前截断
- 后方一致,将截词符放在检索词需截词的前边,只要检索和截词符后面一致的信息。
- 例如,输入“? ware", 就可以查找到“software"、“hardware"等词根为“ware""的信息。
- 中截断
- 前后一致,将截词符放在检索词需截词的中间,要求检索和截词符前后一致的信息。
- 例如,输人“colo? r”,就可以查找到“colour"、“color”等信息。
- 后截断
- 前方一致,就是将截词符放在检索词需截词的后边,只要检索和截词符前面一致的信息。
- 例如,输人“com?”,就可以查找到“computer" 、“computerized"等以“com"开头的词。
- 不同的检索系统对于截词符有不同的规定,有的用“?”,也有的用“》”、“!”、“#”、“$”等。
- 前截断
1.3.3 位置检索
- 位置检索即通过位置算符指明检索词在记录中的位置关系,限定检索词之间的间隔距离或前后关系,可以使检索结果更准确。
- (W)与(nW)
- (W)算符表示在此算符两侧的检索词必须按输入时的前后顺序排列,且两词之间除了可以用一个空格、一个标点符号、一个连词符之外,不得有任何其他的单词或字母。
- (nW)由(W)引申而来,表示在两个检索词之间可以插入n个单元词,但两个检索词的位置关系不可颠倒。
- 例如,输人“computer(1W)retrieval"可检索到含有“computer information retrieval" 、"computer document retrieval”等的信息。
- (N) 与(nN)
- (N)算符表示在此算符两侧的检索词必须紧密相连,但词序可颠倒。
- (nN)由(N)引申而来,区别在于两个检索词之间可以插入n个单元词。
- 例如,输人information (N) retrieval 可检索到含有“retrieval information ”、"information retrieval"等信息。
- ** (F)**
- 是Field 的缩写,表示在此运算符两侧的检索词必须出现在同一字段中
- 如出现在题名字段、主题字段、文摘字段等
- 两词的前后顺序不限,两词之间允许插人其他的词或者字符的个数也不限。
- 例如,输人“computer(F)control"可检索到在某一字段中(题名字段或主题字段或文摘字段等)同时包含“computer"和“control"的文献信息记录。
- (L)
- (L)算符是Link的缩写,表示在此运算符两侧的检索词必须同在叙词字段(DE)中出现,而且两词之间具有词表规定的等级关系(从属关系),(L)前面的词为主标题词,(L)后面的词为副标题词,(L)用来连接主标题词和副标题词。
- (L)运算符只适用于有正式词表,而且词表中的词具有从属关系的数据库。
- 例如,输入“television(L)high definition",命中记录的规范词字段(DE)中出现的匹配词:“television-high definition"。 其中,"high definition"是“television"的下位词。
- (S)
- (S)算符是Subfield的缩写,表示在此运算符两侧的检索词必须出现在同一个子字段中,两词在同一子字段中的相对次序不限,两词中间插入其他词的数量也不限。
- 例如,输人“robot( W) control(S) print”,可以检索出凡是子字段中同时含有“robot control"和“print"的文献信息记录.
- 不同的检索系统有不同的位置运算符,目前,Dialog联机检索系统是该功能最为详尽的检索系统。
- 上述的位置运算符可以同时应用于同一个检索式中,检索系统是按从左到右的顺序执行运算。如果在一个检索式中既有位置算符,又有布尔逻辑算符,系统优先执行位置算符。
1.3.4 限制检索
泛指检索系统中提供的缩小或约束检索结果的检索方式。
- 字段限制检索
| 字段类别 | 字段名称 | 代码 |
| — | — | — |
| 基本字段 | 题名 | T I |
| | 文摘 | AB |
| | 叙词 | DE |
| | 标题词 | ID |
| 辅助字段 | 记录号 | DN |
| | 作者 | AU |
| | 作者单位 | CS |
| | 期刊名称 | JN |
| | 出版年份 | PY |
| | 出版国 | CO |
| | 文献类型 | DT |
| | 语种 | LA |
- 基本字段用来表达信息的内容特征,检索字段符用后缀方式,即/TI、/AB、/DE、/ID等。例如,“pattern/AB"表示要检索的是文摘中含有“pattern”的所有信息。
- 辅助字段用来表达信息的形式特征,检索字段符用前缀方式,即AU=、CS= JN=、LA=等。例如,“AU=Levis"表示要检索的是作者是“Levis"的所有信息。
- 范围限制检索
对数字信息进行限制检索。
- :或-:包含范围
- <:小于
- =:等于
- <=:小于或等于
- 使用高级检索、二次检索
1.3.5 加权检索
加权检索是某些检索系统中提供的一种定量检索技术。
加权检索的侧重点在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。
加权检索的基本方法
- 在每个提问词后面给定一个数值表示其重要程度,这个数值称为权
- 在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。
- 权值之和达到或超过预先给定的阙值,该记录即为命中记录。
- 运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围提高检索准确率的有效方法。
1.3.6 聚类检索
聚类检索是
- 文献进行自动标引的基础上,构造文献的形式化表示文献向量
- 通过一定的聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类的检索技术。
- 根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。在这样的类目体系中,主题相近、内容相关的文献便聚在一起,而相异的则被区分开来。
- 文献自动聚类检索系统能够兼有主题检索系统和分类检索系统的优点,同时具备族性检索和特性检索的功能。
几乎所有的检索系统都有布尔逻辑运算、截词检索和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。
本文链接:https://my.lmcjl.com/post/2971.html
展开阅读全文
4 评论