搜索引擎实现图片检索的用户需求

http://www.itjxue.com  2015-08-07 21:17  来源:未知  点击次数: 

一、什么是需求满足

1.1 什么是需求满足

  用户来搜索“章鱼 保罗”,就文本相关性而言,搜索引擎只要返回和“章鱼 保罗”内容相关的结果就可以了,这样用户是否满意呢?
  用户甲:听说章鱼帝挂了,来看看最新结果,怎么全是8月份的,往后翻页中…
  用户乙:今天同事们在讨论章鱼哥挂了,章鱼哥是啥?我又out了,来搜索一下章鱼帝生平事迹是啥,怎么全是最新的结果,没有章鱼哥的介绍啊,变换个query看看
  用户丙:我是铁杆球迷,看完章鱼哥,再看看足球相关的吧,鲁尼,杰拉德是否又进球了,怎么连个相关推荐都没有,还得我亲自输入。
  用户丁:找个章鱼哥的头像用一下吧,一定很拉风,怎么全是结果没有方图呢,这么扁的图怎么用啊
  用户戊:换个章鱼哥的壁纸,也许下次买彩票能发大财,咦,怎么全是小尺寸的图…
  (以上信息通过分析2010-10-27用户session得出。)
  笼统的说,用户向搜索引擎表达他的需求,搜索引擎理解用户需求,提供各不同的需求下的资源,这整个过程可统称为需求满足。简单说,就是除了基础文字相关性之外的rank工作,都属于需求满足的范畴,也就是说,提供给用户的检索结果,不仅仅要求在字面上是和用户输入的文字相关的,还要满足用户的各种不同需求。
需求满足在rank体系中所处的位置:

1.2 为什么需要需求满足

  用户通过query表达了自己的需求,而对于大部分query来说,尤其是具有隐含需求的query,仅仅字面匹配的查询结果未必能够满足其需求。目前我们的排序系统是主要是基于文本相关性这个维度的,权值体现了query中的term与obj的相关程度,在这个体系下,相关的结果未必能够满足用户需求。
  例如前面提到的“章鱼 保罗”的例子,显然,这些需求在文本相关性这个维度下很难解决,尤其涉及到突发时效性需求,泛需求等。

1.3 需求满足包含哪些工作

  从上面的例子中,可以看出,需求满足需要解决时效性需求问题,多需求问题,相关推荐,size需求,素材类需求,浏览引导等问题。除了基础文本相关性以外的rank策略以及为了这些所做的query分析工作可认为属于需求满足的工作,另外还包括前端结果展现与用户引导浏览的工作。
  Image需求满足,按照不同的维度,可以划分为如下几个方面:
    a.需求识别
    b.资源建设
    c.需求调权
    d.结果组织与推荐
    e.用户引导交互

二、需求满足如何做

  需求满足要解决的核心问题:
    需求识别
    资源建设
    需求调权

2.1 需求的识别

2.1.1 需求的类型

  识别query有哪些需求,以及需求的强弱,是最基础的工作。首先要有需求的体系,能完备的描述各种需求,其次是如何识别这些需求,把每个query的需求对应到这个体系中去。
  基于统计的需求识别
  通过对大量的数据统计分析,可以识别出query有哪些方面的共性。可供分析的数据很多,比如用户行为数据,点击反馈,检索结果等。
  比如:搜索“章鱼 保罗 壁纸”,通过统计用户点击图片的长宽数据,发现用户点击的图片,大部分是长宽比较大的图片,而“章鱼 保罗 头像”则恰恰相反。
  又比如通过分析大量用户的检索数据,发现相当部分的用户在检索“章鱼 保罗”之后,又检索了足球相关的关键词,那么可以识别“章鱼 保罗”和足球有着很高的关联度,在给用户推荐相关搜索时,可以插入足球相关的推荐。

   专名&需求词
  判断query中包含专名或者需求词等关键词,是最直接的方式。比如“章鱼 保罗 头像”,用户在query中显示的表达了头像方面的需求,其中就包含了尺寸方面的需求,头像是需要小尺寸的图,如右图所示,这时候出一张大的图片就不符合用户需求了。
   时效性需求
  时效性需求的识别,主要是通过用户检索量的突发以及资源数的突发来判断。
  检索量的突发,可以通过累积每个query的每天的用户检索频率,用连续多天的用户检索频率,计算当天检索量和历史比较,是否有突发,进而判断是否有时效性需求的强弱。资源数方面的判断,可通过类似的方式挖掘。
  比如“章鱼 保罗”,在世界杯期间,该query,以及相关query的检索量,相比世界杯之前,用户检索量有了爆发性的增长,并且持续保持在高检索量的状态,则可认为是有时效性需求的query。

2.2 需求的满足

  识别出query有哪些需求,下一步的工作就是提供相应的资源。

2.2.1 资源的挖掘

  如何获得满足需求的资源,是需求满足的另一个核心问题。在资源上,通过某一个或者几个特征组合,能够把满足要求的资源和不满足要求的资源区分开,找到用户需求需要的资源,去掉不满足要求的资源,是主要的工作。
  内容属性特征
  对内容属性维度来说,可以分为底层的物理特征,中层的物体识别和高层的语义特征。
  对于底层的物理特征,相对比较简单,包括尺寸,颜色,格式,清晰度饱和度等,中层特征,有人与非人的,色情图片的,整车的识别,手机图片的识别等;对于高层的语义特征,包括场景的识别,图片风格的识别,情感的识别,比如是室内还是室外,是否非主流风格等,都可以作为资源筛选的特征。

   话题属性维度
  话题属性维度,是指动物,植物,帅哥,美女,军事,体育等等各种不同的话题,我们希望把图片能按照这样一个分类进行一个划分。
  比如,通过这个分类,我们可以知道哪些图片是头像类的,哪些是壁纸的,哪些是足球体育相关的。用户在搜索“章鱼 保罗”时,可以推荐足球相关的资源。
   时效性资源的收录

  时效性资源,可以很容易的通过收录时间来判断,和非时效性资源区分开。时效性资源的来源一般包括新闻站点,各大论坛,bbs等社区类网站。

2.2.2 需求调权

  明确了query的需求,挖掘了满足需求的资源,那么如何把满足需求的资源rank到前端呢?
  对于各种不同的需求维度,都有自己的调权的策略。比如“章鱼 保罗 壁纸”,我们识别出有尺寸方面的需求,那么可以把尺寸比较大的图片,进行加权;又比如时效性的需求,可以直接在前三页插入的时效性库的结果,这是因为时效性需求是一个强需求维度,简单的加权,不能保证结果调整到前三页。
  目前这种策略直接叠加的调权方式,优点是简单,直接,缺点也比较多,最大的是不可控,一个维度上的调权,会对最后结果造成多大的影响,他说的话分量有多大,不知道。

三、结语

  对于需求满足未来,要向智能化,自动化,多样化的方向持续发展。我们最终的目标是把需求满足这个方向做没了,需求挖掘,资源满足全部自动化,做到“手中无剑 心中有剑”。

(责任编辑:IT教学网)

更多