首页 | 博客群 | 公社 | 专栏 | 论坛 | 图片 | 资讯 | 注册 | 帮助 | 博客联播 | 随机访问
诺顿惹的祸?居然将系统文件当病毒!- -| 回首页 | 2007年索引 | - -可帮助找出导致OutOfMemoryError原因的开关和工具

Google之外 最佳17项搜索改革创新

                                      

 作者:IT168 雪影蓝风 编译  2007-05-21
 
 【IT168 软件评论】当前,至少有100多个新兴的搜索引擎,而它们也都在搜索技术上开创了一些革新。而在我们看来,以下所要提到的这17项最佳的创新,在将来所造成的影响都将是具有分裂性的。这些革新可以归为四种类型:查询预处理;信息源;算法改进;结果可视化以及后处理。这些创新中有一些在Google的诸多属性中已经包括,但主搜索页面中,这些功能不是有所遗漏就是还尚存局限,而具体的都会在下文中提到。
 
     查询预处理
 
     这类改进的主要目的是应用逻辑操作来试图推测用户的意想,并将此应用到对查询详细情况的改进中。
 
     1、自然语言处理
 
     这项特性最初是又Ask.com所开创,而同期最为著名的例子则是Hakia和Powerset,它们都以不同的方式来尝试理解用户所输入的询问背后的语义或意思。而与Google最大的不同之处在于,这些搜索引擎会将一些计算机检索中的“虚字”认作是重要的内容,也就是那些连接词汇之间的“by、for、about、of、in”这样的词,而Google则会将它们忽略。
 
     2、个人相关性(也称之为“个性化”)
 
     如果能够按照某个特定用户的兴趣和要求来量身订造查询要求,那么就能够反馈出高级别相关的搜索结果,这是长久以来大家都知道的事实。Google在他们的搜索引擎中已经能够支持这个功能,但却需要你先登录;很多用户则是有些勉强地就这么做了,因为这样一来,Google就比较能够“尽力”地去提供给他们一份特别的搜索结果。而我们所需要的是一种能够提供个性化,但又能够以匿名的方式来进行的搜索。从更宽泛一些的层面来说,提供一种跨越多个网站的个性化功能会更加有用。而Collarity就是一个具备这项功能的搜索引擎。
 
     3、定制的、专门性的搜索
 
     这是一个很简单,但功能却很强大的特性。而这一方式应用的典范则是SimplyHired,它是一个搜索工作的垂直搜索引擎,它提供了强大的、预设的搜索,例如“对大龄员工友善的雇主”,“对狗友善的雇主”等等。
 
     信息源
 
     这项改进所关注的焦点在于内部的数据源:额外的内容类型以及通过支持对数据源的限制来改进搜索结果的可靠性,减少垃圾信息。
 
     4、新的内容类型
 
     如今的青少年通过移动电话交流照片和视频就如同互通文字信息一样容易,这已经成为时代的印记。在网络上,富媒体的内容如同爆炸性地增长——图像、音频、视频、电视,还有那些与其内容相关的语义信息。搜索引擎越来越需要与时俱进地去支持这些类型的内容。下面,我们就将说一些支持“富”内容的搜索引擎范例:
 
     ——富媒体搜索:音频(odeo、podzinger),视频(Youtube、truveo),电视(Blinkx),图像(Picsearch、Netvue)。
 
     ——专业化内容的搜索:博客(Technorati),新闻(Topix),分类广告(oodle)。
 
     当然,Google在这个领域也十分活跃,包括Google Blogsearch(博客)、Searchmash(图像)、Google视频、Google新闻等等,因此,将这项创新也作为这十七分之一也许是有些不公平的。尽管如此,我们所期待的更为理想的是,将不同的媒体搜索结果整合到单一的引擎中,就像Searchmash已经做到的那样,而Retrevo也是另一个很好的例子。
 
     5、受限的数据源
 
     对于搜索用户来说,最大的一个问题之一就是垃圾信息。由于营销人员的悟性越来越高,也使用了越来越多侵略性的SEO策略,因此搜索结果的质量也在持续降低。而Google,作为最流行的搜索引擎,所获得的垃圾信息也远比它本应有的要多。如果能够将搜索限制在一系列受信的站点中,这个问题就能够得到解决,尽管这可能会时搜索的内容也由之狭窄,但这样做能够提供给用户们某种类型的搜索内容更为真实有效且高质量的搜索结果;例如,当一所小学中一个项目需要搜索与火山相关的内容时,去搜索维基百科、国家地理以及一些科学、教育的网站。
 
     采用这一方式工作的最好范例是A9.com,它能够从众多的源中提供内容,并能够允许用户精确地为每项搜索作出选择。Google Co-op和Yahoo! Search Builder则能够使第三方创建这样的一种工作方式;而Rollyo则在这方面早就是一个先锋。
 
     6、特定领域的搜索(垂直搜索)
 
     通过对单一垂直的着力关注,搜索引擎能够提供更好的用户体验,这样在某个特定领域所包含的内容就能够更为广泛且更为专业。如今,不同领域的众多垂直搜索引擎数量多到你无法相信;要想知道更多这方面的信息,则可以查看Alex Iskold在Readwriteweb上的相关文章。
 
     算法改进
 
     这类改进旨在提升内部的搜索演算来增强搜索结果的相关性并提供一些新功能。
 
     7、参数搜索
 
     这种类型的搜索比起文本搜索来说,更接近于数据库搜索;它的解答从本事上来说就是不同类型的。一个参数性的搜索能够比文本文档更好地帮助你找到解决问题的方案。例如,Shopping.com允许你对衣物的搜索限定到材质、品牌、风格或是价格等参数;像indeed这样的招聘网站则让你能够限制你的搜索结果应匹配的邮政编码;而GlobalSpec则让你在搜索工程组件时指定诸多参数(例如,当你在搜索工业用管道时能够输入它的参数)。参数性搜索可谓是垂直搜索引擎的一项天然特性。
 
     Google在一个比较普通的层次上已经应用了这项特性——例如在“高级搜索”的页面上可使用参数,但这让它的效用被削弱了。这项特性所发挥出最强大功能的时候是在你深入到标准搜索结果时出现额外的参数,或者是当你限制搜索到某个特定垂直范围时才体现出来的。
 
     8、社会化输入
 
     Yahoo!的Bradley Horowitz相信,社会化输入会在将来成为区分搜索技术的一个标志,而微软也是这么认为的。将众多用户的信息输入聚焦在一起,就能够让搜索引擎得意于群众的智慧,从而提供高质量的搜索结果。当然,如果个别的输入是不可靠或者是游戏性的,那么搜索的结果可能就不是那么为人所信服。在这一领域的不同提供服务者当中,del.icio.us似乎就是用这一方法提供了高质量的搜索功能。其它受到好评的系统包括StumbleUpon、Squidoo、About.com和Wikipedia,它们的一切都是可搜索性的,尽管它们并不算是严格意义上的搜索引擎。
 
     当然,Googe神圣的PageRank算法也有些许基于社会化输入的意味,因为网页排名的一个很重要的组成部分就是根据来自不同网站的外部链接数量和特征,而这些外部链接在此就扮演了收集聚集的智慧的隐含性投票。
 
     9、人工输入
 
     这项应用列在这个名单内可那完全是名符其实的。像ChaCha这样的搜索引擎正在尝试使用人工操作来反馈人们的搜索查询。我们也可以认为Yahoo! Answers是这个领域中的又一例子,尽管其中问题的答案是由其他用户来提供,而不是由搜索引擎来提供。
 
     我们很难看到像ChaCha这种类型的搜索方式还能走多远,除非它能够想办法利用到社区资源。
 
     10、语义搜索
 
     在搜索方面,进来的一些振奋人心的开发项目都与尽力地从网络中提炼出智能信息有关。而这类型的应用仅仅是起步,它们也展示出了语义网的巨大潜能。在这个领域的早期先行者们包括:试图从网络中提取可行的财务信息的Monitor110,而这对于机构投资人来说应该能够引起他们的兴趣;目前处于封闭测试的Spock,它是一个用于搜索人的引擎,而它计划在发布的时候,数据库中能够拥有1亿份个人资料;还有Riya,作为一个可视化的搜索引擎,它的技术能够让你通过照片进行面部与文本识别。
 
     11、发现支持
 
     发现,与个性化和代理技术是启动并进的;这对于搜索来说更是具有神圣意义的。虽然,点对点的搜索模式在目前是最为流行的,且大多数用户可能都会对此保留很长一段时间的兴趣。但如果你能够发现新的数据源,特别是高质量的feed可供你利用,这不会是一件更好的事吗?
 
     在这个方向上,目前已经迈出了一些尝试性的步伐,将搜索与RSS的力量联合起来,例如,你可以设立一个RSS feed来输出Google和Yahoo!. Bloglines中已经支持“推荐的Feeds”特性的多种类型的搜索,显然,一个feed的阅读者能够处在一个适当的角度来推荐你所感兴趣的,基于OPML文件内容的新的博客或是feed。而在这个领域的另一位玩家是Aggregate Knowledge,它通过对多个网站匿名地收集信息来为零售商和媒体提供专业性的服务。总之,这将会是我们在未来翘首以盼的领域。
 
     结果可视化和后处理
 
     这类型的提高旨在改进搜索结果的显示并为“下一步”的特性提供后查询。
 
     12、分类、标签集和聚簇
 
     像Quintura和Clusty这样的搜索引擎提供的是基于标签/关键词的搜索结果聚簇功能。这样,用户就不仅能够看到搜索结果本身,还能够看到一类的搜索结果以及它们之间的关系。这些元信息能够帮助用户更好地理解搜索结果,并能够在相关的主题之间发现新的信息。
 
     13、结果可视化
 
     对于人脑来说,图像比起文本的搜索结果更能够让它们理解并留下记忆。在一个比聚簇更为普及的层面,专门的UI范例来显示搜索结果以及它们之间的关系更能够传达出其中的意思,让用户心领神会。这种方法特别是在指定的上下文内效果会特别好,特别是垂直搜索引擎。Thinkmap的Visual Thesaurus,Inxight Software的VizServer和不动产搜索引擎Trulia的HeatMaps都是使用新的可视化信息的范例,尽管在这个领域的研究仍然处在早期阶段。
 
     14、结果提炼和过滤
 
     通常,一个自然的下一步都是通过在搜索之后,对搜索结果的进一步提炼来完成的。这不同于我们习惯使用的Google的“关键词改动”;它不仅仅是尝试用关键词的关联去提交一次新的查询,而是实际上在试图从结果中进行提炼,这就类似于在SQL查询中对“where”句子增加更多的条件,这样就能够让用户缩小搜索结果的范围,更趋近于他们想要得到的结果。
 
     查询提炼是搜索过程的一个关键性的部分,尽管它已经受到了应有的重视。其中一个很好的榜样就是医疗搜索引擎Healia,它让用户能够通过使用人口统计的过滤方式来处理保健的搜索结果。这是非常重要的,因为像年龄、种族、性别这样的统计数据能够对搜索结果的症状、疾病以及治疗他们所使用的药物都产生巨大的影响;此外,还有机遇查找结果的复杂性、来源和类型的过滤方式。
 
     Google最近在它的搜索结果页面底部引入了一个新的按钮:“在结果中搜索”,这是朝着正确方向迈进的一步;搜索结果能够通过现有的OneBox插件和相关的新的Plusbox特性来进行提炼。随着时间的推进,我们可以期待这项功能会越来越精密。
 
     15、结果输出平台
 
     由于社会性的媒体以及在线内容越来越流行,可供用户用来消费数字信息的选择的数量也在持续增加;相应的,搜索引擎现在必须支持更多的输出平台,包括:web浏览器、移动设备、富互联网应用程序、RSS、电子邮件等等。由于网络连接越来越普遍,未来的用户很可能从一些非常规的渠道访问搜索引擎,例如:用TiVo系统搜索喜欢的电影、程序,用任天堂的系统搜索在线游戏甚至是用冰箱的触摸屏来搜索菜谱。
 
     一些当前的搜索引擎已经支持了多种平台,不仅仅是标准的web浏览器和移动设备。网络搜索引擎Plazoo提供RSS feed搜索已经有很长一段时间;Quintura开始则作为一个可下载的RIA应用程序,而现在则像搜索引擎那样提供一个纯web的界面。
 
     要为较多不同类型的搜索结果提供支持的最简单的方式就是开发一个可用的开放式API,允许第三方的开发者为特定目标的平台开发自定义的用户界面。Alexa Web Search就是这种类型的先驱中的一者,尽管你在使用API的时候需要承担一定风险;而其它可用的API还包括oodle、zillow和trulia。
 
     当然,Google也为一些不同的产品提供了API——例如Google Base、Google Maps和AJAX 搜索API,尽管它对主搜索引擎仍未提供。一些便携设备也能够通过Google Mobile来获得支持;Google Base和Blogsearch也已经提供RSS输出功能。
 
     16、相关服务
 
     从技术上来说,其本身并不能确切地被称为搜索功能的一部分——一旦你完成了一次查询,自然就会有伴随这一次搜索结果的下一个步骤,例如,在你搜索工作空缺职位之后,你就会希望申请你所查询到的职位。从最终用户的效用来看,这是整个搜索引擎功能的内在部分。
 
     令人吃惊的是,这项特性还没有被很多的搜索引擎所重视,除了显示上下文相关的广告内容之外。而对此应用得当的一个完美例子就是一个名字很有趣的搜索引擎:the web's too big,它能够让用户在英国的公共关系机构上搜索信息。民众们还能够获得一项额外的有趣功能:用户可以输入他们需要查询的公共关系详情,接着通过一次点击直接将它提交到公共关系机构。同样的,不动产搜索引擎Zillow则传达了一个Zestimate的概念,也就是Zillow计算的房产价值,还有关于房产的问答特性。这些的额外服务增加了提供给用户的搜索结果的价值,也让他们的网站更具有粘性。
 
     Google对它的一些产品也提供了额外的服务——例如Google Maps上的“寻找商家”选项,但没有对它的主搜索引擎提供这项功能。
 
     17、搜索代理
 
     如同feed那样,搜索代理也是趣味性和对搜索结果的访问有这持续不断要求的双生理念。想像一下,一个软件中的一部分的功能是周期性的查询,监视网络以获取兴趣主题的向你信息,收集并校对结果,删除重复内容,并以总结形式提供一份定期的升级报告。这样的话,它就能为某种类型重要但不迫切的持续搜索提供特别好的工作效果。例如,监视可行的感兴趣的招聘信息,匹配指定参数的出售中的房子,降价到某一指定价格的衣物等等。
 
     Copernic是这个方面一个有趣的玩家——Copernic Agent能够自动地运行保存了的搜索并提供新结果的汇总,也能够在网页上追踪其变化。Connotate Technologies的Information Agent Suite则挖掘了“深层网络”并自动变更探测。
 
     结论
 
     显然的,Google并没有打算就这些发起的猛攻而屈服。它已经将个性化的搜索引入到了它的初始搜索引擎上,在其它的一些方式获得成功时,它也还将继续整合其它的方式。例如,垂直专业化则是一个Google肯定会采用的强大的工具。
 
     在将来,Google主页上的简单的搜索框很可能在其之后隐藏了大量专业化的搜索引擎。从另一方面来说,试图塞满这些数量日益增多的复杂特性,将可能使Google或任何主流网络搜索引擎的整体架构变得复杂而难以更改,因此如何进行取舍将是当前越来越困难的挑战。
 

【作者: 香山叶】【访问统计:】【2007年05月22日 星期二 10:12】【注册】【打印

搜索

Google

Trackback

你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=6287331

回复

验证码:   
评论内容: