前述的三个步骤均属于专利检索工作的前期阶段,前期阶段的主要任务是为整个检索项目做好背景调查及工具选择,而从“检索要素表达的提取及表达”这一步开始便进入专利检索工作的中期阶段,中期阶段的核心任务是为整个检索项目制定好检索策略。检索要素是指能够体现技术主题、技术方案或产品结构所属技术领域、技术范围或基本构思的检索成分。在正式检索开始前,检索人员首先需要从检索主题(如一个技术主题、技术方案或产品结构等)中提取出足够多的检索要素,这些检索要素应尽可能的覆盖到整个检索主题。检索要素的提取工作是在对检索主题理解的基础上进行的,因此检索人员对于检索主题的理解程度将会直接影响到检索要素提取的准确性和全面性。通俗一点而言,检索要素就是一些具有特定技术含义的词组和短语,例如,某个检索项目是关于无人机的飞行控制的,那么,检索人员就可以提取“无人机”、“飞行”、“控制”三个词组作为这个检索项目的检索要素。检索人员在提取了检索要素后,还要将这些检索要素恰当地表达出来,以便后续制作检索要素表和构建检索式。因此,检索要素的表达也是整个检索流程中非常关键的一步。检索要素有两种主要的表达形式:分类号和主题词。其中,分类号又有IPC、CPC、USPC、ECLA、FI/FT等多个不同体系,当前以IPC和CPC两个体系为主流;主题词又包括关键词、同义词、缩略语等。除了分类号和主题词这两种表达形式外,有时候还可以用申请人或发明人等形式来表达特定的检索要素。作为检索人员来说,应当尽可能地用多种表达形式来表达同一个检索要素,其目的是保证后续检索的查全率。利用分类号来表达检索要素时,如何确定分类号是一个现实的问题。一般可以通过两种方式来确定某个检索要素或某几个检索要素组合的所属的分类号:第一种方式是先利用明确的主题词(如无人机)在选定的数据库中进行初步检索,再浏览初检结果的分类号统计情况,一般认为统计排名前几位的分类号和主题词也即该检索要素的相关度最大,最后利用分类号含义表来查询这些分类号的具体含义,以最终确定该检索要素的分类号表达,这一种方式确定的分类号准确率相对较高;第二种方式是直接在分类号含义表中输入明确的主题词,查询与该主题词相关的分类号有哪些,再进一步了解这些分类号的确切含义,从而决定该检索要素的分类号表达,这一种方式虽然比较直接,但准确率并不是很高,其原因是很多主题词与分类号确切含义的对应性并不是很强。另外,如前所述,检索要素和分类号之间的对应情况会出现多种情形,如一一对应(最理想情况)、一对多、多对一、多对多或者无恰当对应,如果出现最后一种检索要素和分类号之间无恰当对应的情形,检索人员就只能优先采用主题词来表达检索要素了。利用主题词来表达检索要素时,检索人员应先确定关键词,在确定关键词时一般要保证该关键词具有一个相对较大的范围,例如检索要素是“杀虫剂”,如果关键词直接确定为“杀虫剂”,那么范围就会较小,与“杀虫剂”含义相近的一些表达如“杀虫药”、“杀虫组合物”等会被排除在外,在这个例子中,“杀虫”则是范围更大且更合适的一个关键词。但是这里的“较大范围”也是一个相对概念,检索人员不能为了追求大范围而随意确定关键词,比如检索要素为“无人机”时,如果为了追求大范围而将关键词确定为“无人”,则会带入很多的噪音,如“无人驾驶汽车”、“无人车间”等,因此,在这个案例中,直接将关键词确定为“无人机”更为合适。在确定英文关键词时也应该基于上述原则,如采用“词根+截词符”的形式来作为关键词就可以适当扩大范围,但是对于一些词根过短、变化形式过多的情况,就不宜采用这种方式来确定关键词,而应该直接利用原词以及可以想到的变化形式来作为该检索要素的关键词。在关键词确定完以后,检索人员还要对这些关键词做一一地扩展,扩展的主要形式就是同义词和缩略语。可以理解的是,不同的技术人员和发明人对于同一个关键词往往有不同的表述方式,特别是在专利文献中,大多数机构都会无意或有意地用不同的词组来表达相同或相近的一个结构或特征。在这种现状下,对关键词进行同义词和缩略语的扩展显得尤为重要。以上面的一个例子来说,杀虫的同义词包括灭虫、除虫、驱虫、诱虫等。笔者在国家知识产权局专利检索及分析系统中做了一个简单的对比检索,发现利用“摘要=杀虫”检索式共检索到1891篇相关专利文献,而利用“摘要=(杀虫 or 灭虫 or 诱虫 or 驱虫 or 除虫)”检索式则共检索到2418篇专利文献。
2.6检索式的构建检索式一般由检索词、检索命令和检索算符组合而成。不同的检索工具及数据库一般有不同的检索命令和检索算符规则,所以检索人员在构建检索式前应当先熟练掌握拟用的检索工具及数据库的上述规则。下面将简单介绍一下较为通用的一些检索命令和检索算符。检索命令有时也叫检索字段,不同的检索工具拥有的检索命令数量上会有差异,一般而言,检索命令数量越多,说明检索工具的检索功能越强大。基本的检索命令有号码类(申请号、公开号、公告号、优先权号等)、日期类(申请日、公开日、公告日、优先权日等)、主体类(申请人、专利权人、发明人、代理机构、代理人、审查员等)、文本类(标题、摘要、权利要求、说明书等)以及状态类(有效、无效、审中、公开、授权、公告、失效、撤回、驳回、视撤等)。一些商用数据库目前开发的检索命令已经达到了几百个,这些特定的检索命令可以帮助检索人员实现一些特定的检索需求,检索人员可以根据检索项目的实际需求来选择使用。检索命令在一个检索式中需要通过检索命令符来表示,不同的检索工具及数据库对于同一个检索命令也有可能使用不同的检索命令符来表示,比如就“标题”这个检索命令,有的检索工具及数据库用检索命令符“TI”来表示,有的则用“TT”或“Title”来表示,这也是检索人员需要注意的一点。检索算符的作用是将检索词组配起来,常用的检索算符有布尔逻辑算符、截词符和位置算符等。(1)布尔逻辑算符布尔逻辑算符的作用是把检索词连接起来,构成一个逻辑检索式,常用的布尔逻辑算符有三种:逻辑与、逻辑或和逻辑非。逻辑与常用“and”表示,用于表示其所连接的两个检索词的概念交叉部分,也即交集部分。如果用逻辑与算符连接检索词A和B,则检索式表示为:A and B,其含义为检索同时包含检索词A和检索词B的文献集合C。逻辑与算符的功能是缩小检索范围,有利于提高查准率。逻辑或常用“or”表示,用于连接并列关系的检索词。如果用逻辑或算符连接检索词A和B,则检索式表示为:A or B,其含义为检索含有检索词A和B中任一个的文献集合C。逻辑或算符的功能是扩大检索范围,防止漏检,有利于提高查全率。逻辑非常用“not”或“andnot”表示,用于连接排除关系的检索词。如果用逻辑非算符连接检索词A和B,则检索式表示为:A not B,其含义为检索含有检索词A而不含检索词B的文献集合C,即将包含检索词B的文献排除掉。逻辑非算符的功能是排除不需要的和影响检索结果的概念,有利于提高查准率。(2)截词符截词符也叫通配符,常用“*”、“?”、“!”、“#”等符号表示。有的截词符代表0个或1个字符,比如“?”,有的截词符代表无限个字符,比如“*”。当检索人员使用英文进行检索时,截词符的功能是为了实现具有相同词根的各种形态英文单词拼写的全面表达,例如当“*”出现在单词的右边时构成右截词,出现在单词的左边时构成左截词。例如,当输入“comput*”时,就可以检索到含有“computer、computing、computers、computerised、computation”等单词的所有专利文献。(3)位置算符位置算符也叫全文查找逻辑算符或相邻度算符,是用来规定符号两边的检索词出现在专利文献中的位置的逻辑运算算符。按照两个检索词出现的顺序和举例,可以有多种位置算符,常见的有:W算符、N算符、S算符、F算符、C算符、SAME算符等。需要说明的是,有一些检索工具及数据库并不支持位置算符这种功能,即使有位置算符,不同的系统对于位置算符的规则设置也可能有所不同,因此,检索人员需要参照各检索工具及数据库的使用说明来运用。一般而言,针对一个特定的检索项目,检索人员需要构建不止一个检索式,而应当利用不同的检索要素表达形式单独或配合来构建多个检索式。例如在处理一个较为复杂的检索项目时,检索人员一般会采用“块检索”的策略。所谓块检索,是指将检索主题中的每个检索要素作为一个检索模块,先针对每个检索模块构建一个或多个检索式,再将各个检索模块通过逻辑运算符组合起来,也就是将多个检索式再进行逻辑运算符的组配。块检索策略的优点是逻辑清晰、层次分明、易于随时调整修改检索式和检索策略。针对每个检索模块,检索人员在构建检索式时,还应尽量构建以下5种不同的检索式:(1)仅用主题词构建的检索式;(2)仅用分类号(确切分类号)构建的检索式;(3)用主题词配合分类号构建的检索式;(4)仅用申请人或发明人构建的检索式;(5)用申请人或发明人配合主题词或分类号构建的检索式。如果能用以上5种不同形式的检索式组合来表达一个检索模块,则能很大程度上提高整个检索项目的查全率和查准率。