搜索引擎技术的现状和热点
搜索引擎技术的发展历程
在互联网络日益渗入我们日常生活的今天,海量的贮存和科学的搜索是人们信息行为中两样最重要的能力。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。互联网上的搜索引擎可以分为两大类:目录式搜索引擎以及基于关键词的搜索引擎。
1、目录式搜索引擎
我们知道,处理复杂事物的一种有效方法是按照一定标准将事物归类。经过归类后,每个事物都与其他事物建立联系,与未经分类的,杂乱无序的状态相比,此时查找就变得相对容易。目录式搜索引擎采取的就是这一方法。
●目录式搜索引擎的工作原理
目录式搜索引擎的数据库建立在人工编辑的基础上,由专业人员对网上信息进行选择、标引、分类,合理地将不同学科、专业、行业或区域的网络信息,按照分类或主题目录的形式组织起来,编制成为等级式的主题指南或主题目录,供用户浏览和寻找感兴趣的信息内容。
●目录式搜索引擎的典型代表Yahoo
Yahoo的信息组织方式具有以下特点 :完备分类体系,归纳网上信息。它将传统的分类思想移植于网上信息的组织,在此思想的指导下,结合网络信息源的特点,构筑类目体系。在14个基本大类之下又以拥有信息的多寡及知识组织的需要程度,将每一基本大类细分成不同层次的次类目。层次越深,主题越专指,从而形成了一个由类目、子类目构成的可供浏览的相当详尽的目录等级结构,为网上丰富的信息资源归类,特别是确切归类提供了保障。
以人工方式为主,保证加工质量。采用分面分析原理,由信息专家编制主题目录,将人的智力投入到信息的选择与加工过程中,从而保证了目录编制的质量。同时,以人工为主,对提交的网页按主题目录进行筛选、归类和组织,克服了单纯由搜索软件自动分类所带来的缺陷,增强了分类的合理性,提高了检索的准确性。
●目录式搜索引擎的不足
覆盖率有限 :网络信息增长迅速,使得采集信息的速度远远跟不上信息增长的速度,更不用说编制主题索引的速度了;分类困难:不同搜索引擎的体系结构不同,分类体系的建立缺乏统一的标准,使得同一内容的信息在不同搜索引擎中经常会被归入不同类目,造成用户的困扰;成本高,时效差。随着网络应用技术的发展,用户不再满足于这种对网站分类和摘要的简单查找,更希望对内容进行查找,于是就出现了基于关键词查询的搜索引擎。
2、基于关键词的搜索引擎
目前互联网上的搜索引擎大多数都采用了基于关键词的查询技术,其典型代表为Google和百度,内容可以覆盖互联网上的绝大多数网页内容。
基于关键词的搜索引擎一般由搜索器、索引器、检索器和用户接口等四个部分组成。
●基于关键词的搜索引擎的排序算法
基于关键词的搜索引擎通过程序收集并索引的信息资源量极其庞大,而用户的提问式却大多由几个词组成,这种情况会导致数量庞大的检索结果,用户需要花费巨大的精力进行浏览筛选。搜索引擎采用的排序算法包括以下几种:基于词频统计的排序算法 。早期很多搜索引擎采用的排序算法是基于词频统计的,词权的计算一般把该词在HTML网页中出现的位置考虑进来,例如在标题中出现的词比在正文中的词权值高。但是由于网络资源的数量巨大,词频相同的两个网页质量却可能相差很远,因此这种算法的局限性很明显。
●基于超链分析的排序算法。
传统情报检索理论中的引文分析方法是确定学术文献权威性的重要方法之一,即根据引文的数量来确定文献的权威性。Google所采用的PageRank即借鉴了这一思想。PageRank的发明者对网络超链接结构和文献引文机制的相似性进行了研究,把引文分析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,以此来帮助实现排序算法的优化。但它存在着偏重旧网页和偏重综合站点的缺陷。
●基于关键词的搜索引擎的不足
明显的不足表现为:结果多,相关性低;更新慢;对自然语言理解能力差;不支持个性化查询;对多媒体内容的检索尚不成熟。
上一篇:电脑网络连接正常无法上网的解决方案
下一篇:怎么配置DNS服务器
在互联网络日益渗入我们日常生活的今天,海量的贮存和科学的搜索是人们信息行为中两样最重要的能力。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。互联网上的搜索引擎可以分为两大类:目录式搜索引擎以及基于关键词的搜索引擎。
1、目录式搜索引擎
我们知道,处理复杂事物的一种有效方法是按照一定标准将事物归类。经过归类后,每个事物都与其他事物建立联系,与未经分类的,杂乱无序的状态相比,此时查找就变得相对容易。目录式搜索引擎采取的就是这一方法。
●目录式搜索引擎的工作原理
目录式搜索引擎的数据库建立在人工编辑的基础上,由专业人员对网上信息进行选择、标引、分类,合理地将不同学科、专业、行业或区域的网络信息,按照分类或主题目录的形式组织起来,编制成为等级式的主题指南或主题目录,供用户浏览和寻找感兴趣的信息内容。
●目录式搜索引擎的典型代表Yahoo
Yahoo的信息组织方式具有以下特点 :完备分类体系,归纳网上信息。它将传统的分类思想移植于网上信息的组织,在此思想的指导下,结合网络信息源的特点,构筑类目体系。在14个基本大类之下又以拥有信息的多寡及知识组织的需要程度,将每一基本大类细分成不同层次的次类目。层次越深,主题越专指,从而形成了一个由类目、子类目构成的可供浏览的相当详尽的目录等级结构,为网上丰富的信息资源归类,特别是确切归类提供了保障。
以人工方式为主,保证加工质量。采用分面分析原理,由信息专家编制主题目录,将人的智力投入到信息的选择与加工过程中,从而保证了目录编制的质量。同时,以人工为主,对提交的网页按主题目录进行筛选、归类和组织,克服了单纯由搜索软件自动分类所带来的缺陷,增强了分类的合理性,提高了检索的准确性。
●目录式搜索引擎的不足
覆盖率有限 :网络信息增长迅速,使得采集信息的速度远远跟不上信息增长的速度,更不用说编制主题索引的速度了;分类困难:不同搜索引擎的体系结构不同,分类体系的建立缺乏统一的标准,使得同一内容的信息在不同搜索引擎中经常会被归入不同类目,造成用户的困扰;成本高,时效差。随着网络应用技术的发展,用户不再满足于这种对网站分类和摘要的简单查找,更希望对内容进行查找,于是就出现了基于关键词查询的搜索引擎。
2、基于关键词的搜索引擎
目前互联网上的搜索引擎大多数都采用了基于关键词的查询技术,其典型代表为Google和百度,内容可以覆盖互联网上的绝大多数网页内容。
基于关键词的搜索引擎一般由搜索器、索引器、检索器和用户接口等四个部分组成。
●基于关键词的搜索引擎的排序算法
基于关键词的搜索引擎通过程序收集并索引的信息资源量极其庞大,而用户的提问式却大多由几个词组成,这种情况会导致数量庞大的检索结果,用户需要花费巨大的精力进行浏览筛选。搜索引擎采用的排序算法包括以下几种:基于词频统计的排序算法 。早期很多搜索引擎采用的排序算法是基于词频统计的,词权的计算一般把该词在HTML网页中出现的位置考虑进来,例如在标题中出现的词比在正文中的词权值高。但是由于网络资源的数量巨大,词频相同的两个网页质量却可能相差很远,因此这种算法的局限性很明显。
●基于超链分析的排序算法。
传统情报检索理论中的引文分析方法是确定学术文献权威性的重要方法之一,即根据引文的数量来确定文献的权威性。Google所采用的PageRank即借鉴了这一思想。PageRank的发明者对网络超链接结构和文献引文机制的相似性进行了研究,把引文分析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,以此来帮助实现排序算法的优化。但它存在着偏重旧网页和偏重综合站点的缺陷。
●基于关键词的搜索引擎的不足
明显的不足表现为:结果多,相关性低;更新慢;对自然语言理解能力差;不支持个性化查询;对多媒体内容的检索尚不成熟。
这篇流量运营《搜索引擎技术的现状和热点》,目前已阅读次,本文来源于电脑软硬件教程网,在2024-02-26发布,该文旨在普及流量运营知识,如果你有任何疑问,请通过网站底部联系方式与我们取得联系