学会搜索
# 学会搜索
因为互联网的出现,信息传播变得快捷,每天产生的信息更是核弹级别的。我们可以查看、寻找的资源、资料变得更多了,但是你是否真的会高效、并准确的去寻找其中我们需要的资料呢?
几年前,当我第一次为搜索初学者做一份书目指南之前,我不得不静下心去想,到底什么是我能教给他们的最简单、最重要的东西?什么是我们职业搜索者知道的,而这些学生不懂的?什么课程是导致找到和找不到区别产生的原因以及是他们需要学习的?
# 我的7条搜索准则
# 1去信息应该在的地方
普通人或许以为,象我们这样擅长搜索的人,一定是因为知道一些使用搜索引擎的秘籍。其实,我们真正知道的,恰恰是这个事实:对于很多问题,是无法用搜索引擎解决的,因为互联网上并不存在所需信息。也许答案藏在1935年出版的一本《哈泼的》中(Harper's),或者藏在1865年出版的一张《纽约时报》中,或者藏在一本对比不同欧洲国家医疗保险管理政策的书中,或者藏在一段未发表的论文中,或者藏在一份宝时洁(P&G)做的产权市场调查中,或者藏在1965年的一场参议院听证会记录中。
当任何人向我们提出一个问题时,无论是否熟悉该领域,我们做的第一件事,是搜寻我们脑海中积累的信息地理图。当我们说出“让我们试一下联机医学文献分析和检索系统(MEDLINE)”时,我们已经评估过用户的需求(关于某种医药环境下的特殊疗法)和知识水平(医学教授或学生),并确定了哪里最可能找得到符合他们需求的信息(医疗文献中的文章)。
无论那问题是什么,我们都会经历同样的信息地理图搜寻和确认过程:被问及艺术品的复制时,我们会去搜寻艺术百科全书或者互联网;被问及1966年1美元可以买到什么时,我们会去搜寻《美国历史统计》(Historical Statistics)或《美国统计摘要》(Statistical Abstracts)或者1966年的本地报纸广告。不同的工具可以找回不同的信息,而图书馆员们的技巧正是了解哪一种工具可以最好的完成哪一种任务。
当一个图书馆员问我特拉华流域(Delaware watershed)的原始信息时,我的第一个反应是
- 美国陆军工程军团(Army Corps of Engineers).
- 美国渔业及野生动物服务(U.S. Fish and Wildlife Service).
- 美国环保局(Environmental Protection Agency).
- 特拉华州的同类部门(equivalent agencies for the state of Delaware).
明确了这个主题,我就在searchgov.com作了一次搜索,果然,从联邦政府的这几个部门和其它部门发现了一大堆相关文件。但是联想到大多数关心流域问题的人都是科学家,我也用了SciSeek.com去搜索互联网上的科学网站,那使我找到了大量其它与这个流域的环境、化学、工程相关的信息。
然后,我通过EBSCOhost 搜索多个全文数据库,那使我找到了从包括科学杂志、旅行杂志和体育杂志上的相关文章。
图书馆员们也明白,不同信息源的风格是互相不可代替的。杂志和报纸会用读者简明易懂的语言解释复杂晦涩的主题,而学术和专业杂志则发表原始的研究文章。但是因为“研究”必然被限制在一个主题的很小的、可掌控的领域,它就象一个难题的小块。当我们想看这一个小块的风格时,或者当我们想知道一个主题的广泛背景时,我们会去找书,书会概括和让你理解一个最初的研究。政府文件则会提供统计、法律、金融信息,甚至会有关于“我们是谁?”、“我们拥有什么?”、“我们已经到了哪一步?”等公开资料。
# 小结:
工作是有行业之分的,信息也是如此,对于不同属性(行业)的信息,去不同的行业中找。同时不同的平台,给你提供的信息也是不同的,尽管这些信息都属于一个大类,但平台展示的角度不同,如上文说所“杂志和报纸会用读者简明易懂的语言解释复杂晦涩的主题,而学术和专业杂志则发表原始的研究文章”,若是社会的某些频率则应该是商业公司的调查报告更为准确,应为公司要依靠这些信息来选择他们要售卖的商品。
因此去每个信息所在的行业,所在的平台,查询信息更为高效。
# 2你得到什么答案,取决于你怎么提问
推论:问题决定答案,如果你不喜欢答案,那么换问题吧
普通人或许以为,图书馆员们一定知道所有的答案。其实,我们真正知道的,是如何问出好问题。我们知道如何在宽泛和特殊之间自如滑动调节搜索范围,直到我们找到那任务最关键的影响因素。
我们用来滑动调节搜索范围的方法之一,是语言。如果我们用一个特殊关键词没有发现足够的信息,我们就会转向概念更宽泛的一个层面;如果我们发现了太多信息,我们就会尝试更特殊的关键词。
# 举一个例子
举例来说,当我们被要求寻找这方面的研究资料:肥胖者与身材标准者做相同的工作,是否肥胖者挣的钱更少? 一些我们会尝试的关键词,可能是“肥胖”或“体重”(obesity or weight),“薪水”或“工资”或“收入”(salary or wages or pay),“歧视”或“区别”(discrimination or differential)。我们也有可能使用更宽泛的陈述:肥胖和雇用歧视(Obesity and employment discrimination),这或许会找回各种关于歧视的研究资料:面试,薪水,评估,提升,等等。不管我们用哪种关键词组合,我们都知道,我们会得到不同的搜索结果,因此,我们当然会使用所有想得到的合理关键词。而且,当我们点击到有价值的新发现时,我们还会使用我们从连续的搜索过程中遇到的网页中发现的任何新关键词。
此外,我们还使用其它方法来滑动调节搜索范围。当我们决定搜索主题标题时,我们会从最特殊的关键词开始,以保证我们找回的文件和主题完全相关。当我们对找到什么相关内容几乎不存指望,—— 当我们需要的只是damn fool luck, —— 我们会从最宽泛的关键词开始搜索。一旦我们找到了什么资料,我们就会用尽技巧利用它,顺藤摸瓜连本带利找出更多相关资料。
当我们从概念最宽泛的关键词开始搜索时,我们会使用“OR”组织关键词,就象用一个拖网捕捉到四分之一英里内半径内的每一条鱼;并使用“AND”组织关键词,用这个方法来滑动调节到最狭窄的搜索范围,就象扔掉不合格的鱼。
当我们想搜索无限信息宇宙中的一小块时,—— 一个卡片目录,或者《联机医学文献分析和检索系统》,或者一个特殊搜索引擎如searchgov.com —— 我们也是在搜索一个统一体的狭窄概念领域。 狭窄搜索的风险是:某些相关信息中并不含有我们使用的关键词,或者我们选择的特殊搜索引擎或数据库中并没有索引某些相关信息,因此我们可能错过这些相关信息。而当我们从最宽泛概念开始搜索时,也要冒只找到无效结果的风险,比如当我测遍搜索引擎寻找一个名叫"E."的歌手信息时。
通过在宽泛和狭窄的概念之间滑动调节;组合不同的关键词、不同的搜索方法、不同的搜索资源;总是想着还能找到其它什么内容;我们大幅度提高了这种可能性:不是为顾客发现一个答案,而是为顾客发现一个最佳答案。
# 小结:
有些资料,可能因为你的关键字跟它不匹配而错过,这时我们需要使用更广泛的关键词才行,或者将不同关键词组合使用。就像网鱼,除了要去每种鱼所在的河域外,有时我们还需要换更大的渔网才行。
# 3答案必须迎合需求
图书馆员们需要理解的,不仅是问题,还需要理解:哪一种答案会使顾客满意。如果我们给他们的答案不是他们想要的那一种,那我们能算是回答了他们吗:有人要一篇百科全书文章,你给他一摞书,虽然那摞书中有答案?有人要一个特定问题的口头答案,你给他一个网站,虽然那网站中有答案?有位病人要了解他刚被诊断患上的一种疾病的信息,你给他一本专业医学学术杂志上的晦涩文章,虽然那文章中有答案?有人仅仅想打印几篇文章好带回家去看,你给他一打文摘?
# 小结
答案有时候并不是我们需要的样子,有时候需要我们理解后,并进行一定转化才能变成我们需要的。
# 4搜索是一个多步骤的过程
有时,猎获过程只能是迂回曲折的。为了寻找歌手“E.”的信息,我需要从一本摇滚百科全书或摇滚网站开始,我去了“终极乐队名单”(UBL.com),在那里找到了“E.”的一个传记,一个音乐唱片分类目录,他现在的乐队The Eels的信息,他们的官方网站,以及巡回演出信息。
如果有人真的想寻找某个主题所有最细枝末节的信息,这会激活我们侦探犬般灵敏的本能,引发我们拥有的每一丝技巧。首先,我们会去每一个我们认为可能有所找信息的地方,搜索不止一个数据库,而是每一个似乎可能的数据库。我们会搜寻期刊数据库,论文摘要,OCLC联机联合编目目录(WorldCat),会议论文索引,等等。我们会急速走遍整个互联网,既使用普通搜索引擎,也使用特殊搜索引擎、专业网站和看不见的数据库。
每当我们发现什么的时候,我们都会从中观察发掘更多线索。跟随书目中的每一条信息,搜寻这些作者的更多作品,找到那些作者的e-mail,进行引用搜索,查找谁在引用他们的作品。每当我们发现有用的新关键词时,我们都会回到我们已搜索过的地方,使用新关键词再次搜索。当我们找到一些正是我们的顾客脑海中所想信息时,我们会极尽利用数据库或搜索引擎提供的任何功能—— 可点击的主题或者一个"more like this"的功能—— 寻找更多的类似条目。
# 小结
有时候直接搜索某个东西,是无法直接搜索的,可能需要间接的通过其他东西来当跳板,(比如:先搜A物品,再从A找到B,最后通过B找到目标C)。
比如我想获得一个演员的资料,但是该演员是个小演员,直接通过名字无法搜索,那么我可以先搜索该演员演过的某个电影或者影视剧,或者他上过的综艺,间接的找到关于他的一点信息。这种间接的寻找可以要进行多次,因为每次你找寻的信息都不太足够。
# 5信息本身是无意义的,只有人提问之后才有价值
- 数据:瑞典是最大的烹调酱用户。
- 数据:51%的圣路易士居民说他们从未去过圣路易士拱门。
- 数据:根据NEC研究院的资料,1.5% 的网站是色情网站。
现在你知道这些数据了,你更聪明了还是更happy了?事实上,你能有什么理由关心这些呢?没有上下文,这些数据只是数据,不是信息。只有在我们象这样提问时,它们才成为有价值的信息:
- 如果我计划在瑞典做销售莎莎酱,会面临什么样的竞争?
- 圣路易士是否应该面向本地居民做旅行宣传广告?
- 互联网上的色情问题到底有多严重? (注意:解答这个问题需要远超过以上数据的信息)
这个世界充满了无穷无尽的内容:箭头,陶器碎片,软体动物化石,古老的文字和日记,五十年代的菜谱,垒高拼装玩具,芭比娃娃。
所有这些数据都是无意义的,直到有人做一些事—— 提一个问题,把它们与其它数据放在一起,思考它们的意义,直到有人归并这些碎片并发现一个过去的文明,或者在破烂文字中发现政治阴谋的痕迹,或者从这些旧菜谱中得知罐装汤和袋装食品是什么时候开始渗入我们生活的。
除非你知道自己要用它们做什么,随便的数据堆积是无意义的。你必须从一个问题开始,或者一个主题,最好有一个明确的陈述不仅让你明白什么信息是你需要的,而且让你明白什么信息对你是无用的。如果你说你想找到专利权的经济效果,你完全可以只聚焦于成功者和失败者。
这意味着你可以忽略保护专利权的争论以及什么发明可以授予专利的辩论。你的数据应该聚焦于股价、资产平衡表、和价格目录。
# 小结
当我们使用信息发现一个规律或者发现一个趋势,或者帮助我们达成某件事时,那么该信息才是有效的。机器如果不被使用,那么它就是一堆废铁而已。
# 6向你的答案提问 ―― 信息可能是真的,但仍然是错的
我住在爱荷华州的达芬波特市。2001年5月,我们招待了天知道多少网络新闻记者,他们都把他们的相机指向我们的,被密西西比河包围和淹没的,棒球馆。那些相机显示了我们的河流对这国家的驱动—— 淹没—— 小队志愿者在填充沙袋。令人小小惊讶的是每一个我打过电话的亲戚都提出送浮袋给我,但我不需要它。
这些记者一直在报道着事实,直到我们离开。他们忽略的是告诉剩余的故事,把相机镜头移向四周,或者移向旁边。如果他们有那么做,那么这个国家就会认识到:达芬波特市建在一座惊人高大的山上,99%的城区都没有收到洪水的影响,只要不遇到更糟的情况。
洪峰到来的那一天,太阳高照,而我正在监督一队建筑工人为我的房子盖一个日光浴室。
这是一个令我们警醒的故事。这些记者无疑是诚实的,他们不会故意歪曲事实,但是某种程度搜狐他们又确实这么做了。必须记住,某些我们利用的信息源,比如任何一方的政客在谈到2000大选期间发生在佛罗里达的戏剧性变化时,都使数据显得支持他们那个版本的真实。我们必须明白,所有我们的知识都是不完整的的临时的,会随着新的证据和理论的出现而变化。三十年以前,恐龙还被认为是冷血动物,但现在它们不是了。恐龙自己从来没变过,是人,是新的证据和解释使之变化。所以我们总是倾向于不完全肯定我们给别人的答案。
我们对如何向数据提问有足够的了解。当我们确信一个不可能为零的搜索结果为零时,我们会重新审视我们的搜索策略——我们是否拼错单词或姓名了?我们是否找错地方了?我们向统计数据提问,问“这是谁说的?”,问“他们是怎么知道的?”,问“他们的方法是什么?”,如果有人给我们成年美国人挖鼻孔的精确比例,我们足够清楚必须怀疑有多少人会诚实的回答这个问题。我们不会满足于获得的第一个答案。我们不断地求证,求证,再求证。
# 小结
得到的信息是正确的,但确是部分信息,并不全面,我们有时需要从多个角度去查证。
# 7问图书馆员
我们会……,废话,我们当然会问图书馆员。
- 因为我们冷静的了解我们的收藏。
- 因为有时人们如果在预期地点没有找到预期答案,就会放弃。(有多少次真实的问题被隐蔽在表面问题的背后:“读者指南在哪儿?”)
- 因为我们努力发现人们真正需求的信息,并且把它转化成我们的系统能理解的问题。
- 因为我们更擅长于面面俱到的考虑一个事物的前前后后—— 如果我们没有关于暹罗猫的书,我们还有关于猫类繁殖和饲养的书;我们还有杂志索引和数据库可能帮我们找到关于暹罗猫的文章;我们甚至可能在顾客不屑一顾的儿童书籍中找到一本合适的书。
- 因为我们了解如何命令各种数据库起立、打滚、舔我们的脸。我们的用户没有找到答案的事实,并不意味着答案不存在。(诚然,事实可能是我们也找不到答案。)
- 因为,跟我们的用户不同,我们在去开始搜寻的时候,是带着太平洋底的深信,深信答案存在,而以上帝的名义,凭作为图书馆员的荣誉,我们会把它找出来。
问题是,为什么会只有我们,几乎没有别人再懂这些?
这些准则真被当做准则受到重视吗?它们应该是的,因为我所知道的每一个优秀图书馆员,所有时间都在实践它们。这可以用来解释,为什么我们能够如此一致的、轻易的,制造一些超越我们的目录和计算机的神秘,找到使外行吃惊的答案。
我常常暗示我的学生,信息就象匹萨饼,—— 你越饿,你就吃得越多。你的搜索需求越彻底,你越需要彻底搜索所有可利用资源。这是我的猜测,关于什么格式的信息分别占据了在过去3个世纪中累计总信息的多少百分比。我相信由地区、国家、国际政府创造的文件是这几个世纪中最大的独立信息源;然后是书和期刊;即使已有着超过10亿网页,而且在以每天几百万的速度增加,互联网在能有竞争力之前,还有很多需要迎头赶上的地方;剩下的小块还包括诸如论文、会议文献、录像、电影、图片、地图、数据库,等等。
这个信息匹萨饼的每一个小碎片,都还能被分割得最小,甚至一个如杂志或期刊这样的小碎片,也还能被细分成索引不同内容的不同数据库——联机医学文献分析和检索系统(Medline), 科教资源信息中心(ERIC),生物学文摘(Biological Abstracts),美国国立农业图书馆馆藏检索(Agricola)。如果你真的想进行完整的搜索,检查支离破碎的每一个可能小片。
# 小结:问一个会找资料的人
# 关于搜索引擎的原理
下面介绍下最基本的搜索引擎原理。
不管你在谷歌还是百度中输入关键词,机器从来就没有帮你在互联网的海洋中搜索答案。它只是在自家的索引库中查找和你搜索内容匹配的关键词而已。相当于你想找一本书的内容,先去翻目录。
# 索引库的建立
那么索引库从何而来呢?早在你搜索之前,搜索引擎就一直通过爬虫技术在全网爬取内容并存放起来,建立索引。简而言之,你以为的搜索不过是在目录中找了个关键词,并通过这个关键词对应的页码翻到了那一页而已。并不神奇。
既然是索引、是目录,那么搜索基本技巧中,第一个需要注意的就是,一个或多个关键词所得到的结果总是比完整的句子好。因为当你输入完整的句子,实际上期待的是索引库中有一个和你的句子匹配度足够高的内容在等着你。那种概率是非常低的。
搜索引擎在搜索时还会面临另外一个大问题——在一本书的目录中查找关键词,结果往往并不多。但搜索引擎的索引库可不只是简单的几页目录,它是爬虫持续不断工作的结果,可以说也是海量信息。哪怕你只搜索一个关键词——「脱发」——它也会提示"已为你找到一亿个结果"。
如果你在一本不知道多少页的书里的某个目录中找到一亿个关于「脱发」结果,你准备如何从这一亿个结果中找到你想要的答案?搜索引擎是这样做的——
# 权值的标定与竞价排名
爬虫所得到的内容所建立的索引库还需要经过一道工序——**对不同内容进行权值标定,可以理解为打分、排名。**影响搜索结果排名的因素有非常多,网站品质、页面质量、权威性、外部链接、关键词等等等等。评分较高的就会被排序在搜索结果的前端。而百度在考虑商业模式的时候,在这里添加了竞价排名,并在某些底线上把控错误,从而导致了如今的局面。
当搜索引擎成为人们在互联网上查询信息的主要入口时,也不只是搜索引擎自己在做排名,那些希望自己的内容或产品能够被排在搜索结果前列,让用户搜索时第一眼看到他们的人也在花心思。给钱做竞价排名只是其中一个,自己做内容优化、关键词优化也是一条大的出路。这里的「优化」并不等于内容优秀,而是想办法让自己的页面评分足够高。这个优化,就是 SEO,Search Engine Optimization。