基于概念的权重PageRank改进算法_论文

发布于:2021-10-19 01:04:19

维普资讯 http://www.cqvip.com 基 于 概 念 的权 重 P gRa k改 进 算 法  ae n Co e — a e   e g e   g Ra k Al o ih   nc pt —b s d W i ht d Pa e n   g r t m 杨  彬  康 慕 宁  ( 北 工 业 大 学 计算 机学 院 西 西 安  7 0 7 ) 1 0 2  摘  要  对 比 了基 于链 接 分析 的搜 索 引 擎排 序 算 法 P gR n a e a k和 HI S T 。针 对 原 有 P gR n ae a k算 法 采 用 的* 分 页 面 自   身 P gR n ae ak值 的策 略 , 出 了一 种 按 权 值 分 配的 改 进 算 法 。 权值 由 页 面 间 的概 念 关联 比 重 和 用户 的搜 索概 念确 定 。 提   关键词 P g R n   HI S 搜 索 引擎 ae a k T 概 念  1 概   述  该网 页的 P gR n a e a k值。   PgR n a e a k算法 的基本 思 想是 借 鉴 传统 的 学术 文 献 的 引文 分  析 方法 , 并把这 一思 想应 用 到了 We 面中 , 一篇 文 献 的重 要  b页 即 性可 以通 过其他 文献 对 其引 用 的数 量 来衡 量 。如 果 页面 A通 过  超级链接 指 向了页 面 B, 相当 于页 面 A给 页面 B投了 一票 , 页面 A   需要把 自己 的一 部分 P g R n ae a k值分 给页面 B 。最后 , 据每 个页  根 面的 P g R n a e a k值来 判断 页面的重 要性 , 重要 的页面会 在搜 索引擎  的搜 索结果 中位 于前列 。如果一 个 网 页有许 多网 页 都指 向 它 , 那  随着 互联 网的迅 速发展 , 网络 已经 成为 一种 信 息 发布 和 交流  的 *台 。但是网 络上 的信息 资源 数量庞 大 , 般 用户 无法 轻 松快  一 速地 找到 相关 的信 息 资 源。 搜 索引 擎 可 以帮 助 用户 通 过 关键 字  的 查询 , 方便 迅速地 找到相 关页面 。   搜 索引 擎通 过网 页收 集程 序 ( S i rR bt, r , 某  如 p e , o osWo d m) 按 种搜 索策 略 ( 广 度 优 先或 深 度 优 先 ) 行 网 页 收 集 , 建 立 索  如 进 并 引。当 用户输 入某个 关键词 进行 搜 索时 , 索引 擎 返回 所 有和 搜  搜 索关 键 字相 关 的页 面 , 按某种 算 法 排序 , 排 序后 的 结 果返 回  并 将 给用 户。   当前 最成功 的搜 索引擎 G o l 通过 自己 的网 页 收集 程序 收  og , e 录了4 0多 亿个网 页 , 并通 过对 网页 间的 超 链接 结 构 的分 析 , 归 递   计算 出每个 页面 的 P gR n a e ak值 , 来确 定 网页的重 要 程度 。这 种方  法 的特 点 是全 部过 程 都 由机 器 自动 完成 , 不需 要 人工 的 参 与 , 但  么它 可 能 获 得 很 高 的 P g R n ae a k值 ; 果 一 个 网 页 被 一 个 本 身  如 PgRn a e a k值 很 高 的 页 面 所 指 向 , 么 它 同 样 可 能具 有 很 高 的  那 PgR n ae a k值 o   2 2 P g R n 值 的计 算 页 面 P g R n 值 的计 算公式 为 : .  ae a k   a e ak   P A)=( R( 1一d + d P T1 C( )+… +P T  c ) ( R( )/ T1 R( )/   ( )  T ) 假设 页面 T ~T 都 有超 链接指 向页 面 A I   。其 中 P ( ) 示  RA表 页 面 A的 P g Rak值 ; ae n 参数 d是一个 衰 减因 子 , 据 不同 情况 可  根 是 排名有 时不够 准 确 。另 一个 成 功 的搜 索引 擎 Y ho则 采取 了 ao   完 全不 同 的策 略 , 它首 先 建 立 了若干 个 主 题 目录 , 据完 全 由 手  数 以设 定 d在 0 ~l 之间 , 通常设 定为 0 8 。c A .5 ( )表示 页面 A指 向   其他 页面的 链接个 数 。   工 输 入 , 每 个收 录 的页 面 归入 某 一 主题 目 录 , 把 并对 收 录的 网 页  附 有简介 信息 , 提 高搜 索 效率 和 准 确 度 。但 是 , 以 它耗 费 了 大 量  在通常 情 况下 , 定 每个 网 页的 初 始 P g R n 值 为 l 通 过  设 ae a k , 以上公 式 , 归计算 各网 页的 P g R n 递 ae a k值 , 直到 网 页的 P g R n   ae a k 的 人力 和时 间进行分 类及 维护 已存在 的分类 。   目前基 于链接 结构分 析的 搜索引 擎 排序 算 法 主要 有 两种 : 一  种 是斯 坦福大 学 S re  r egyBi n和 L wrneP g 提 出的 P g R n a e c  a e ae a k算  法L , 了验证该 算法 的性 能 , l 为  j 他们 建立 了 G o l 索引擎 的原  o ge搜 型 j 现在 Go ge , o l已经 成为 全世 界 最 知 名 的搜 索引 擎 之一 ; 一  另 值趋 于稳定 。由 于其 用 户 行为 模 型 假设 用 户访 问 网 络是 完 全 随  机的 , 因此一 个 页面的 Pg R n a e a k值被 * 分给 了 其所 指 向的 页 面 ,   由 上述公 式中

相关推荐

最新更新

猜你喜欢