搜索引擎和知识图谱那些事星朝

根据张俊林大神的《这就是搜索引擎》这本书中描述(推荐大家阅读),搜索引擎从采取的技术划分为4个时代:1.史前时代:分类目录的一代这个时代成为“导航时代”,Yahoo和国内hao123是这个时代的代表。通过人工搜集整理,把属于各个类别的高质量网站或网页分类,用户通过分级目录来查找高质量的网站。这种纯人工方式并未采取什么高深的技术手段,采取分类目录的方式,一般收录的网站质量较高,但这种方式扩展性不强,绝大部分网站不能被收录。2.第一代:文本检索的一代文本检索的一代采用经典的信息检索模型,如布尔模型、向量空间模型或者概率模型,来计算用户查询关键词和网页文本内容的相关程度。早期很多搜索引擎如AltaVista、Excite等大都采用这种模式。相对分类目录,这种方式可以收录大部分网页,并按照网页内容和用户查询的匹配程度进行排序。但由于网页之间有丰富的链接关系,而这一代搜索引擎并未使用这些信息,所以搜索质量不是很好。3.第二代:链接分析的一代这一代搜索引擎充分利用了网页之间的链接关系,并深入挖掘和利用了网页链接所代表的含义。通常而言,网页链接代表了一种推荐关系,所以通过链接分析可以在海量内容中找出重要的网页。被推荐次数多的网页其实代表了其具有流行性,搜索引擎通过结合网页流行性和内容相似性来改善搜索质量。Google于1998年成立,它率先提出并使用PageRank链接分析技术,大幅度提高了搜索质量。目前几乎所有的搜索引擎都采取了链接分析技术,但是这种技术并未考虑用户的个性化要求,所以只要输入的查询请求相同,所有用户都会获得相同的搜索结果。另外很多网站为获取更高的搜索排名,针对链接分析算法提出不少链接作弊方案,这样导致搜索结果质量变差。4.第三代:用户中心的一代第三代即理解用户需求为核心的一代搜索引擎。不同用户即使输入同一个查询词,但其目的可能不一样。比如同样输入“苹果”作为搜索词,一个追捧iPhone的时尚青年和一个果农的目的会存在巨大的差异。即使一个用户,输入相同的查询词,也会因为所在时间和场合不同,需求有所冰变化。目前搜索引擎大都致力于解决如何能够理解用户发出的某个很短小的查询词背后包含的真正需求的问题。为了获取用户真正的需求,目前搜索引擎做了很多技术方面的尝试。如利用用户发送查询词时的时间和地理位置信息、利用用户过去发出的查询词及相应的点击记录等历史信息手段,来试图理解用户此时此地的真正需求。(二).搜索引擎的架构原理搜索引擎通常是用户输入查询词,搜索引擎返回搜索结果。其目标是:更全、更快、更准。搜索引擎需要对百亿计的海量网页进行获取、存储、处理,同时要保证搜索结果的质量。如何获取、存储并计算这些海量数据?如何快速响应用户的查询?如何使得搜索结果能够满足用户的信息需求?这些都是搜索引擎面对的技术挑战。搜索引擎涉及三个核心问题:        用户真正的需求是什么(用户输入的查询词非常简单,查询的平均长度是2.7个单词,如何获取用户的真实需求)、哪些信息是和用户需求真正相关的(搜索引擎的本质是一个匹配的过程,即从海量数据中匹配用户的需求内容,如何从判断内容和用户查询关键词的相关性到让计算机真正理解信息所代表的含义)、哪些信息是用户可以信赖的(互联网上所发布内容是否可信并无明确的判断标准,同一个查询的搜索结果可能完全是矛盾的答案,此时信息的可信性尤为重要,链接分析也看成对信息可信度做出的评判)。下图是一个通用的搜索引擎架构示意图:(完全参考《这就是搜索引擎》)

随着智能搜索引擎的兴起,如Ghunt。其核心技术包括自动推理技术、本体知识系统、专家系统等,它更注重于其他科学相融合、个性化搜索、智能化比较高。但我此处就不在叙述,因为知识图谱或知识计算引擎被认为是下一代搜索引擎,我更想与大家分享这部分的基础知识。换句话说,它也是非常智能、需要理解用户需求、以用户为中心的搜索技术。

(一).知识图谱的应用首先通过知识图谱的应用引入这个概念,同时体会它的优点。传统的搜索引擎搜索“姚明的身高”,返回的结果是网页内容与姚明身高的相关一些列链接。如Yahoo:

再如平时我们通过百度或搜狗搜索小说电影电视剧时的应用:

PS:其中还涉及到很多技术,我的毕业设计就是其中之一:在知识获取过程中多源知识或在线百科的实体对齐、属性对齐和属性值对齐的研究。知识图谱建立后需要考虑知识扩充、知识更新等实时修改也是其中的难点。该篇只是入门介绍,其他有机会再分享。

THE END
0.大遗址见证大变局殷墟青铜青铜器二里头三星堆如此,我们就把整个大历史分成“史前”和“历史”两大阶段。有学者在这中间又加了一个概念,叫“原史时代”。 “原史时代”是指已经出现文字但又不足以解明当时历史发展状况,或者当时没有文字但是后人有追述性记载的时代。之所以提到这一概念,因为这恰好与中国历史大变局有着密切关系。根据具有中国特色的时代划分方案jvzquC41f{428<3eqo5bt}neng5II^UHOKI17:9T;MW/j}rn
1.夷夏互化融合说他所划分的颍水类型早期偏早的遗存,我们在前一小节把它放在了以郑州大河村遗址第三、四期为代表的大河村类型中作了论述。他划分出的颍水类型晚期其时代属于庙底沟二期文化时期,也即龙山时代早期,与我们这里所论是一致的。杜金鹏认为:大汶口文化向颍水及伊洛地区的推进,比它向长江下游及东南沿海地区的渗透显然要重要jvzquC41euyo0ls1fm€hzy4|izv`|pxjmz532;7pf3w049742:5u49742:83a>9968?10|mvon
2.设计美学复习资料另一种引起分化的中介是史前时代的武术模仿和礼仪,通过巫术活动,节奏成为调整和组织集体行动的一种工具,与原来的劳动脱离开来可以被普遍地加以运用。 (从辩证角度来看,特定领域的节奏感会使人产生生理、心理上的疲劳,在身心放松的情况下,节奏感则会使人愉悦。) 因此,节奏所具有的情感激发作用,最初只是劳动过程中的jvzquC41o0972mteu0tfv8iqe1763:6;:2=/j}rn
3.王泰郭子林新著《埃及史》出版在文明社会形成之前,埃及这块土地已经历了漫长的史前时代,历时约数百万年,至少在约175万年前至约75万年前,埃及就出现了粗糙的打制石器。经过漫长的演进,古埃及从约公元前8000多年开始向农业社会转变,生产技术不断改进,社会生产力提高,城市、文字逐渐出现。历经几个文化阶段之后,在约公元前3200——前3000年之间,古jvzquC41kokt0w|w0gjv0ls1kplp1:56:1879B3jvo
4.哈全安部落社会与民族国家:当下国内中东史研究的两个视角从宏观视角来看,人类社会的演进可以划分为史前时代和文明时代两大阶段。对应人类社会的演进历程,部落可以划分为两种形态,一种是原生形态,另一种是虚化形态。部落的原生形态,即史前时代建立在血缘社会基础上的原始部落,存在于人类历史的童年阶段,属于原始社会的范畴,终结于国家的建立,其基本要素在于群婚基础上的血缘族群、jvzquC41gunju}tt{0zkp~3gfw4dp8nphq527=:178=40qyo
5.玉器时代在考古学领域,近几十年又再次提出“玉器时代”,但所指有了改变:世界史研究中,将距今五六千年,即介于石器时代和青铜时代之间的这一阶段,通称为“铜石并用时代”。中国自这一时间节点起,玉器发展进入高峰阶段,至距今4000年前后的龙山时代、即青铜器被广泛使用之前,可以单独划分出一个“玉器时代”,与世界史的“铜jvzquC41yy}/nrkgygkl0lto0et0j>4ctvodnn4fgvgjn7iqAcxuKmB425969
6.讲座回顾丨焦天龙:经济考古与中国东部新石器时代早期的经济形态这种生产模式是这些史前社会赖以生存和发展的基础,对不同的地区社会演化的过程造成了重大影响。因此,我们有必要对这种生产方式进行认真的研究,这样才能深入研究各个地区社会发展的历程。 焦老师将“低水平食物生产”概念放在中国史前时代进行观察,提出了两个问题:一是低水平食物生产在中国史前时代存在的时间;二是低水平jvzq<84yyy4xj‚h{l{4tf~3gfw4dp8nphq523::182810qyo
7.考古学简史(一)北方网自然科学方法的应用和史前考古学的绝对年代在史前年代学方面,这一时期已开始采用自然科学的方法。例如,20世纪初,地质学家把欧洲的地质年代确定为4个冰期和3个间冰期(见第四纪地质学)。于是,考古学家把旧石器时代文化与冰期、间冰期的划分联系起来,进行分期。各冰期的绝对年代最初是根据地层的厚度来推测的,极不jvzq<84pgyy/gwttvj4dqv3ep1yzu}jo1461585615602957768:87xjvor
8.张文涛:演化视野下的人类史分期问题探讨笔者曾在《丹尼尔•斯迈尔与深度历史理论》一文中讨论过“史前时代”。在此只强调一点,这个概念充满了意识形态的歧视色彩,是欧洲人区分“文明人”与“野蛮人”(包括没有文字的古代人与现代人群)的工具。摩尔根的《古代社会》延续着这个思路,他以心智能力为尺度,将古代社会划分为蒙昧、野蛮与文明三个阶段。值得注意jvzq<84kyj4du|s0ep5yull1uzrm{|}u14636:71v4636:725a;93:8220yivvq