基于锚文本相似度的PageRank改进算法_论文

发布于:2021-12-02 11:10:53

第 3 卷  第 2 期  6 4 Vl. 6 03  1 ? 计 算 机 工 程  21 0 0年 l 2月  De e be   01   em r2 0 No2   .4 Comput rEng ne rng e  i ei   开发研 究 与设计 技术 ?   文章编号: 0  。2( l2一J _   文献标识码:   l0_ 4800 4 2 -3 2 ) 5 0 A 中 图分类号: P1 T 3  1 基 于锚 文本相似 度 的 P gRa k改进 算 法  ae n 王钟斐 ,王 彪  ( 宝鸡文理学院数学系,陕西 宝鸡 7 1 1) 2 0 3  摘 要 :分析搜索引擎 Go ge的 P gRak算法 ,给出其存在的 3个问题及针对这 3个问题提出的改进 。结合锚文本相似度提 出一种改进  ol ae n 的 PgR n 算法 ,利用 N t 对传统 PgR n 算法和改进后的 PgR n 算法进行实验 分析与 比较。 ae ak uh c aeak aeak 实验结果表明 , 改进的 PgR n 算  aeak 法提高了搜索结果 的查准率 ,有利于减少主题漂移现象。   关健词 :P g R n ae a k算法 ;锚 文本 ;相似度 ;主题漂移  I p o e   a e n   g r t m   s d o   c o   e t  i i rt   m r v d P g Ra kAl o ih Ba e   nAn h rT x sS m l iy a W ANG  o g f i WANG  a   Zh n -e. Bi o ( pr n f te t sB @ Unv ri f t adS ine, a 7 1 1, hn ) Deat t Mahmai , a me o c iest o Ar n  ce csB @ 2 0 3 C ia  y s [ s at hspp ra a z sP g R n  loi m,whc ste ky t h oo y o erh e gn  o l. he su sad te e iig Ab t c]T i ae  nl e  ae a k a rh r   y g t i i h   e e n lg   fsac  n ieGo ge T re i e  n h xsn  h   c s t i r v me t r  o ne   n An i r v d P g Ra k ag rtm  o ie   t  n h rtxs smiai  i p o sd n  rd t n lP g Ra k mp o e ns ep itd o t  a  mp o e   a e n   lo i h c mb n d wi a c o  e t  i l t s rpo e ,a d ta ii a  a e n   h r y   o ag rt m  n   h   mpr v d ag rt lo i h a d te i o e   lo i hm  r   o a e   y Nu c .Ex e i n a  e u t  h w  h t t e i r v d Pa e nk ag rt m  mp o e  h   a e c mp r d b   t h p rme t lr s ls s o t a  h   mp o e   g Ra   l o i h i r v ste p e i i n o   e s a c  e u t, ih h l    e u et p c d it h n me o . r c so   f h  e r h r s ls wh c   e p t r d c  o i- rf p e o n n  t o   [ ywod ]P gRakag rh ac o  xssmiry tpcdi  Ke  r s a e n  lo tm; nh re t i l i ;o i—r t i t ; at f 1 概 述  随着 互联 网的迅速发展 ,网络上的信息量 以几何数量递  增。因网上信息资源数量庞 大,用户 无法轻松快速地找到相  关的信息。搜索引擎的出现 就是为 了解决海量信息与用户需  求的矛盾。在众多搜索 引擎技术 所采 用的算法 中,超链接分  析技 术 是很 多研 究 者主 要研 究 的问 题 ,Go ge所 采 用的  ol P gR n ae ak算法得到认可 。从实际应用来看 ,这种算法确实解  决了一些问题 , 由于 P g R n 但 a e ak算法只是对 网页 的链接结构  进行了分析 , 无法判 断网页中的超链接是否与 网页主题 相关,   容易导致在最 后的搜索结果中出现大量与查询主题无关但却  具有很高 P g R n值 的无效 网页 , aeak 因此搜索结果 的查准率不  够理想。*几年 T E R C的 We  rc b Tak测试 的评测结果表明 ,   网页重要性的高低 。P gR n ae a k算法描述如下 :将网络看作一  个 有 向 图 :G ( E ,其 中 , 是 节 点 ( ;  )   网页 ) ;E是 边 ( 集 当且  仅 当存在从页面 i 到页面 的链接 时存在从节点 i 到节点 的  边 ) 。其 初 始定 义 为 [: 集 2  1 一   ㈩  其 中,P ( ) R A 表示页面 A的 P gR n ;P ( 表示页面  ae ak值 R ) 的 P g R n 值 , 且 页面  链 接 到 页 面 A; G ) 页 面  出  ae ak 并 c 为 链接 的总数 ; ()   A 是网页 的集合 ;C为规范化 因子 。   对于随机访问模型,有可能存在没有链向其他 网页 的链  接 ,仅在小范围内相互链接 ;或是一类独立的没有 出链接的  网页 。

相关推荐

最新更新

猜你喜欢