tceic.com
简单学习网 让学习变简单
当前位置:首页 >> 学科竞赛 >>

计算机检索基础


文献信息资源是知识的宝库 文献检索是开启知识宝库的钥匙
美国《化学文摘》封面上醒目的印着:
Key To The World’s Chemical Literature 自称是“打开世界化学文献的钥匙” 形象地说明文献检索的“钥匙”作用

医学文献检索与利 用

郑州大学图书馆 王槐深

第四讲:

计算机信息检索基础
一、概念
计算机信息检索,即利用计算机存贮和检索 信息的过程。 信息存贮是将文献、数值、事实等按一定的 格式输入到计算机中,加工处理成可供检索的数 据库。 信息检索是将检索提问式按一定的要求输入 计算机中,经计算机系统与已存贮在计算机中的 数据库进行匹配运算,然后将符合检索提问的数 据按要求的格式输出。

二、计算机信息检索系统的构成 计算机信息检索系统通常由计算机 硬件、检索软件、数据库和通信网络等 软硬件设备构成。其中数据库是计算机 信息检索系统的核心。数据库的质量直 接影响计算机信息检索系统的功能和效 率。对数据库的了解是掌握计算机信息 检索技术的前提。

三、数据库的概念与结构

数据库是指在计算机存贮设备 上按一定方式存贮的相互关联的文献 信息集合,它可以由一个或多个文档 组成。 文献信息数据库由文档、记录、 字段三个层次构成。

1、文档(File)
文档由若干记录构成。是指数据库中的顺排文档和倒 排文档。 ⑴ 顺排文档是数据库的主体,又称主文档,它按每条 记录的顺序号大小排列。检索结果都来自于顺排文档。 ⑵ 倒排文档是指数据库中的主题词索引、著者索引、 刊名索引等,它们按索引词的字顺排列。 检索时,计算机按输入检索词的字顺先从指定的倒排文 档中找到相匹配的索引词,然后根据索引词后的记录顺序号 到顺排档中调出相应的记录。 许多大型数据库往往包含数以万计的记录,为了方便用 户检索,常按学科、专业或收录文献的先后时间等,将数据 库分成若干个文档。一个文档可以构成一个数据库,也可多 个文档共同构成一个大型数据库。

2、记录(Record) 记录是由若干字段组成的文献单元,是 数据库中的基本文献单元。一条记录在数据 库中记录着一篇文献的相关信息。 例如:在书目型数据库中,一条记录相 当于一条题录或文摘;在全文型数据库中, 一条记录相当于一篇完整的文献;在其它类 型数据库中,一条记录则代表一个信息单元。 记录越多,数据库的容量就越大。

3、字段(Field)
字段是构成记录的基本单元,是对文献某一 方面的特征(包括外表特征和内容特征)进行描 述的结果。 例如:题名、作者、作者地址、出版年、来 源(出处)、主题词、文摘等字段是书目数据库 中必备字段。为识别每一个字段所表达的文献特 征,通常每个字段都有固定的名称和缩写(或称 字段标识符),如,题名字段的标识符为TI,作 者字段的标识符为AU等。 字段标识符具有检索的功能,参与编制检索 式,因此,对它要有所了解和掌握。

四、数据库的类型
依据数据库中存贮的信息内容可将其分 为以下三种类型: 1、文献型数据库 文献型数据库是指以各种文献信息为 存贮内容的数据库。 书目数据库 全文数据库 图像数据库 多媒体数据库
文献型数据库具有 结构复杂、数据量大、 制作要求高、使用广泛 等特点,是人们获取文 献信息的主要信息源。

2、数值型数据库
数值型数据库是以数值方式表示的数据 为存贮内容的数据库。包括各种统计数据、 科学实验数据、科学测量数据等。例如,医 学上使用的化学制剂或药物的各种理化参数、 人体生理上的各种数值等均可建立数值型数 据库。 这类数据库除存贮数值之外,还存贮对 应的运算公式和规则, 系统按用户的要求作 某些必要的计算,为用户提供能够直接使用 的数值型信息。

3、事实型数据库
事实型数据库是以事物发展过程中产生的 事实性信息为存贮内容的数据库。如自然资源 数据库、人口数据库、名人数据库和机构名录 数据库等。 这类数据库除存贮基本事实数据外,也存 贮数学运算和逻辑运算规则,能同时提供文本 信息和数值数据。用户只要通过人物、机构或 事物名称及有关事项进行检索,就可获得特定 的事实或数值信息。

五、计算机信息检索技术
计算机信息检索技术,是指由计算机 将输入的检索表达式(用户检索提问)与 检索系统中存储的文献信息特征标识及其 逻辑组配关系进行类比、匹配的运算方式 与规则。
常用的文本信息检索技术有布尔逻辑 检索、位置检索、截词检索、限制检索等。

1、布尔逻辑检索技术
是利用布尔逻辑运算符来表达检索词之间的逻 辑运算关系的检索方法。常用的有逻辑与(AND)、 逻辑或(OR)、逻辑非(NOT)三种类型。

●逻辑与:用于表达概念相交关系的一种组配。
检索式写成A AND B,表示检索的文献中必须同时 包含检索词A和检索词B的文献才是命中文献。 作用:是对检索词加以限定,用于缩小检索范 围,减少命中文献量,提高查准率。

●逻辑或:用于表达概念并列关系的一种组
配。检索式写成A OR B,表示检索的文献中包含 检索词A或包含检索词B,或者同时包含检索词A 或检索词B的文献为命中文献。 作用:是扩大检索范围,增加命中文献量, 提高查全率。

●逻辑非:用于表达概念排斥关系的一种组
配。检索式写成A NOT B,表示检索的文献中包 含检索词A同时不包含检索词B的文献为命中文献。
作用:也是缩小检索范围,提高查准率。

逻辑非一般在检索的后期,精选文献时使用。

● 逻辑运算符的运算优先级
为了表达复杂的逻辑关系,在一个检索式 中可同时使用多个逻辑运算符,构成一个复合逻 辑检索式。为了控制最终的检索结果,规定了逻 辑运算符的运算次序,即运算优先级。依次为: 括号的运算优级最高(绝大多数检索系统优先处 理括号内的检索式)、NOT次之、AND再次之、 OR最低,即( )>NOT>AND>OR。例如: (心脏瓣膜疾病OR心力衰竭)AND手术并发症

2、位置算符检索 位置算符 是指表示词与词之间位置 关系的算符,又称邻近度算符。常用位置 算符有 near、with、(nW)、(W)等 。 作用:是限制词与词之间的位置关 系,弥补布尔逻辑算符只是定性规定检 索词的范围,更加明确检索词之间的逻 辑关系,缩小检索范围,提高检索的查 准率。

例如: A near B ,表示要求检索词A和B必 须同时出现在同一句子中,并且两词出 现的前后顺序不限。 A with B , 表示要求检索词A和B必须 同时出现在同一字段中。 A (nW) B ,表示A和B两词相隔n个单 词且前后次序不变;n=0时格式为A(W)B。

3、截词算符检索
是指在检索词的合适位置进行截断, 保留相同的部分,用相应的截词算符代替 可变化部分进行检索 。常用的截词算符 (又称通配符)有“?”和“*”两种, 也有采用其他符号表示的。 作用:主要是解决一个检索词的单复 数、词性的词尾变化,词干相同而词尾不 同以及英美词汇拼写差异的问题等。

●按截断的字符数量可分为有限截断和 无限截断两种: 有限截断是指检索词与被检索词只能在 指定的位置可以不一致。常用“?”表示(? =0-1个字母)。例如,输入leukemi?可同时 检出leukemia、leukemic、leukemid等词的 记录;输入Wom?n,可同时检出Woman和women 这两个词的记录。
无限截断是指检索词与被检索词实现部分 一致,被截断部分的字符不限。常用“*”表 示(*=0-n个字母)。

●按照截词的位置: 无限截断可分为左 截断(后方一致)、右截断(前方一致)、 左右截断(中间一致)、中间截断(前后一 致)等四种方式。不同的检索系统有不同的 截词方式,但以右截断和中间截断比较常见。 右截断是指检索词与被检索词的词干相 同而后缀不同。例如,输入 compute*,可同 时检索出compute、computer、computerized、 computerization等词的记录。

中间截断是指检索词与被检索词的词头和词尾 相同而中间部分不同。 例 如 , 输 入 leuk*ic 可 同 时 检 索 出 leukemic 、 leukamic、leukemogenic等词的记录。

截词检索是隐含的布尔“逻辑或”(OR)检索, 其功能是减少检索词的输入量、简化检索程序、扩 大检索范围、防止漏检、提高查全率。在西方语言 信息检索系统中得到广泛应用。

(4)限制符检索
限制符检索 是将检索词或检索式限制在数据库记录 中出现的字段位置。又称为“字段检索”。 作用:是缩小检索范围,提高查准率。 常用限制符有“in”和“=”。例如,gene in TI, 表示检索题名中含有gene一词的文献。其中“TI”是题名 字段标识符Title的缩写。又如,py=2002,表示检索2002 年 发 表 的 文 献 。 其 中 “ py” 是 出 版 年 字 段 标 识 符 Publication year的缩写。 一般情况下,数据库中记录的所有字段均可做限定字 段检索。在进行字段限制检索时,应参阅有关数据库的使 用说明,避免产生误检。

三、检索策略的编制与调整
检索策略 是指为实现检索目标而制定的全 盘计划和方案,是对整个检索过程的谋划和指导。 由于计算机信息检索是由计算机程序来控制和执 行检索匹配操作,检索者与具体的检索过程是分 离的,因此,事前制定适宜的检索策略,是成功 检索的关键。 广义的检索策略包括信息需求分析、选择数 据库、确定检索途径和标识、编制检索表达式并 准备多种检索方案和步骤等。 狭义的检索策略包括确定检索词和根据需要 运用各种运算符编制检索表达式的构思过程。

检索策略编制流程图
信息需求分析 选择数据库 选择检索途径 换成系统检索用词 编制检索式
调整检索式 No

检索 检索结果是否满意
Yes

输出检索结果

(一)信息需求分析
信息需求分析是制定检索策略的依据。信息 需求按范围和程度的不同,可分成三种类型: 普查型:需要全面收集有关某一主题的文献 信息。具有普查、回溯的特点,要求尽可能高的 查全率。 攻关型:需要收集有关某一主题的某一特定 方面的文献资料,不强调查得文献的数量,但需 要查得的文献具有较强的专指性,即查准率。 探索型:需要了解和掌握某一领域的最新研 究动向或研究成果,要求文献具有新颖性和及时 性,即要求检索结果尽可能的新。

在明确课题对查新、查全和查准要求的同时, 还要明确对信息形式和内容的需求。 形式需求:包括所需文献的类型、数量、语种、 年限等。 内容需求:包括检索课题涉及的学科范围、 主题内容和有关主题词、关键词、分类号等,以 及它们之间的逻辑关系。 在上述基础上,确定检索主题,形成若干能 代表信息需求而且具有检索意义的主题概念。为 制定检索式做好准备。

(二)选择数据库
选择数据库时要充分考虑其是否与信 息需求结合紧密、学科专业是否对口、信 息覆盖面是否广泛、揭示信息内容是否及 时、检索功能是否完善等方面的问题。 选择合适的数据库,除事先对各数据 库的来源、主题内容结构作充分的调查研 究外,还需要通过对各数据库实际检索结 果的对比评价,选择出对某一课题最为合 适的数据库。

(三)选择检索途径
检索途径是指用记录的某一特征为检索切入 点进行检索。检索途径通常体现为字段检索。 常用的计算机检索途径有:自由词(关键词) 检索、主题词检索、分类检索、著者检索、引文检 索、机构(地址字段)检索、刊名检索、限定检索、 默认(缺省)检索等。 另外,在一些大型数据库(或检索系统)的主 页界面提供有:分类浏览、简单检索、高级检索、 专家检索等检索入口。

(四)编制检索式
编制检索式包括选择检索词和编制检索式两 方面的内容。

1、选择检索词
检索词是表达信息需求和检索课题内容的基 本单元,也是与数据库中有关数据进行匹配运算 的基本单元。检索词选择的恰当与否,会直接影 响着检索效果。 在全面分析检索课题的基础上,提炼主要概 念与隐含概念,排除次要概念,以便确定和选择 检索词。

(1)选择检索词要遵循以下原则
① 数据库提供有规范词表时,应依据词表选主题词。 ② 数据库无词表或词表中无相应词时,选最常用的专业术语。

③ 数据库使用各种代码表示主题范畴时,应选规定的代码。
④ 同义词、相关词、近义词、缩写词、词形变化等尽量选全。 (2)处理好检索词切题性和匹配性的关系 选择较上位的概念词作为检索词,有利于提高检索结果 的匹配性(查全率),但却降低了切题性(查准率)。相反, 选择较下位的概念词,会提高切题性,但却降低了匹配性。 因此,要强调哪一方,需要根据信息需求的类型和检索的具 体情况,合理利用主题词的上、下位的关系,正确选择检索 词。

2、编制检索表达式
检索表达式是计算机信息检索的依据。 编制检索表达式主要是使用布尔逻辑算符、 位置算符、截词算符、限制符等,将检索词 进行组配,确定检索词之间的概念关系或位 置关系,准确地表达课题需求的内容,以保 证和提高检索的查全率和查准率。 常用的文本信息检索表达式编制方法有 以下三种:

(1)概念积木法
概念积木法的含义是:把检索课题剖析成 若干个不同的概念面,先分别对这几个概念面 进行检索,并在每个概念面中尽可能全和多地 列举相关词、同义词、近义词,并用逻辑或 (OR)连接成子检索式, 然后再用逻辑与 (AND)把所有子检索式连接起来,构成一个 总检索式。 这种方法能提供比较明确的检索逻辑过程, 容易理解和执行,还可部分或全部地用作保留 检索。适用于较复杂的检索课题。

(2)引文珠形增长法
引文珠形增长法的含义是:从已知的关 于检索课题的少数几个专指词开始检索,以 便至少检出一篇命中文献或一条相关信息, 然后浏览检出的文献或信息条目,从中选出 一些新的相关检索词,补充到检索式中去, 重新进行检索,获得新的命中结果。这样反 复进行,直到找不到其它适合包含于检索式 的附加词为止,或者已经得到了数量适宜的 命中结果。 这种方法具有很强的人机交互性,可以 使检索式以比较生动的方式生成并得到不断 丰富。

(3)逐次分馏法(或逐步缩小法)
这种方法的含义是:先确定一个相当大的、 范围较广的初始检索概念进行检索,然后提高 检索的专指度,得到一个较小的命中结果,继 续提高检索式的专指度,逐步缩小命中结果, 直到得到满意的命中结果。

逐次分馏法的特点是检索操作比较主动, 漏检较少。

(五)实施检索与检索式调整
1、实施检索 即将编制好的检索表达式,输入计算机检 索系统,由检索系统根据检索式的指令进行逻 辑匹配运算,并输出(或显示)检索结果。 由于检索课题的千差万别,检索系统的情 况各不相同,检索人员的水平不一,所以,输 入的检索表达式,往往具有较大的局限性、随 机性和盲目性,有可能导致检索的失误。因此, 应随时根据检索过程中的信息反馈情况,调整 检索式,使检索效果达到最佳。

2、检索式调整(按查准和查全两个原则进行) ⑴ 通过缩检和增加限制,提高查准率
当检出文献量过多,且查准率较低时,可通过缩小检 索范围和增加限制概念的方法对检索式进行调整。 ① 减少同义词或同类相关词。 ② 将自由词换成主题词,尽量采用专指性强的主题词。 ③ 增加限制概念,并用逻辑与(AND)进行组配。 ④ 选择合适的字段进行限定检索。 ⑤ 使用适当的位置算符检索,排除误检。 ⑥ 对检出结果的年限、文献类型等进行限制。 ⑦ 利用逻辑非(NOT)去除不必要的概念。

⑵ 通过扩检和减少限制,提高查全率
当检出文献量太少或等于零时,且查全率较低,可通过扩 大检索范围和减少限制概念的方法对检索式进行调整。
① 增加同义词或同类相关词,并用逻辑或(OR)连接。 ② 降低检索词的专指度,采用上位概念词或泛指词检索。 ③ 减少限制概念,少用逻辑与(AND)运算符,去掉一些 次要的、专指度高、非关键的检索词。 ④ 使用主题词扩展检索,有副主题词时选用全部副主题 词组配检索。 ⑤ 使用截词检索,取消某些限制过严的字段限制、位置 算符限制。

⑥ 扩大检索年限。

(六)输出检索结果 通过浏览检索系统显示的检索结果, 判断是否符合检索课题的要求,若符合要 求,即可按检索系统提供的输出方式,根 据需要将检索结果按一定的格式(如,题 录、文摘或全文)联机/脱机打印、下载 存盘,建立个人资料库。

谢 谢!


推荐相关:

002 第二章 计算机信息检索基础与技术--2011.04

计算机信息检索基础与技术 本章重点●信息检索基础知识 ●信息检索的技术理论 ●信息检索的方法、途径、步骤 ●信息检索的效率评价 本章首先介绍了信息检索的目的、...


计算机检索基本原理

计算机检索基本原理_哲学_高等教育_教育专区。网络资源与信息检索 本章具体内容安排...也可以说,所谓检索策略,就是在分析课题内容实质的基础上,确定检索系统、检 索...


计算机基础练习题

计算机基础练习题_IT认证_资格考试/认证_教育专区。第 1 章-计算科学与计算机...正确答案是:树形结构 7.SQL 语言中,实现数据检索的语句是回答___。 正确答案...


计算机基础B模拟1

计算机基础B模拟1_工学_高等教育_教育专区。单选题: 1、 使用超大规模集成电路...CAD 答案: A 4、 ( )主要应用在机器人(Robots)、专家系统、智能检索等方面...


计算机应用基础之信息检索

计算机应用基础之信息检索_其它技巧_PPT制作技巧_PPT专区。计算机应用基础之信息检索一.信息素养 1. 信息素养的概念 “信息素养(Information Literacy)”的本质是全球...


文件检索作业

文件检索作业_电脑基础知识_IT/计算机_专业资料。文献检索 666666666666666666 《文献检索》 学班学 院: 经济与管理学院 级:园林 15-2 班号:1081211229 ...


《信息检索》总复习题库及答案

《信息检索》总复习题库及答案_电脑基础知识_IT/计算机_专业资料。2011-2012 经济学院《文献检索与利用》总复习题库备注:红色为不确定答案,紫色是为了个人强化记忆...


大学生信息检索39道习题以及答案

大学生信息检索39道习题以及答案_电脑基础知识_IT/计算机_专业资料。大学生信息检索,课后作业,39道简答题。信息检索试题集合 1、 信息素养或素质的具体内容有那些?...


3.3系统检索法

3.3系统检索法_电脑基础知识_IT/计算机_专业资料。系统检索法 追溯检索法 浏览检索法1. 系统检索法系统检索是指借助检索工具或系统获取文献或文献线索的方法, 具体...


2014年电大计算机应用基础网考试题与答案

2014 年计算机应用基础网考试题与答案 1.一般认为,世界上第一台电子数字计算机...计算机主要用于人工智能 40.用计算机进行图表资料检索工作,属于计算机应用中的 a ...

网站首页 | 网站地图
All rights reserved Powered by 简单学习网 www.tceic.com
copyright ©right 2010-2021。
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@126.com