📜  Web内容,Web结构和Web用法挖掘之间的区别

📅  最后修改于: 2021-08-24 04:42:26             🧑  作者: Mango

Web挖掘是Data Mining技术的一种应用程序,用于从Web数据中查找信息模式。 Web Mining通过标识网页和对Web文档进行分类来帮助提高Web搜索引擎的功能。

网络挖掘的类型:

1. Web内容挖掘–
Web内容挖掘可用于从网页内容中挖掘有用的数据,信息和知识。 Web内容挖掘通过在搜索引擎中显示列表,根据输入的内容执行文本,图像和一组网页的扫描和挖掘。

Web内容挖掘使用两种方法:

  • (i)基于代理的方法:
    这种方法涉及智能系统。它通常依赖于自治代理,该代理可以识别相关的网站。
  • (ii)基于数据的方法:
    基于数据的方法用于将Internet上存在的半结构化数据组织为结构化数据。

2. Web结构挖掘–
Web结构挖掘可用于发现超链接的链接结构。结构挖掘的目的是生成网站和类似网页的结构摘要。对网络内超链接的结构感兴趣。这种类型的挖掘适用于文档级别和超链接级别。 Web结构挖掘在挖掘过程中扮演着非常重要的角色。

3. Web使用情况挖掘–
Web用法挖掘用于挖掘Weblog记录(网页的访问信息)。它有助于发现网页的用户访问模式。有许多可用的研究项目和工具可以针对不同目的分析这些模式。 Web挖掘主要采用四种挖掘技术,即关联规则挖掘,顺序模式,聚类和分类。

Web内容,Web结构和Web用法挖掘之间的区别:

Criterion Web Content Web Structure Web Usage
IR VIEW DB VIEW
View of data
  • Unstructured
  • Structured
  • Semi-structured
  • Website as DB
  • Link structure
  • Interactivity
Main data
  • Text documents
  • Hypertext documents
Hypertext documents Link structure
  • Server logs
  • Browser logs
Method
  • Machine Learning
  • Statistical (Including NLP)
  • Proprietary algorithm
  • Association rules
Proprietary algorithm
  • Machine learning
  • Statistical
  • Association Rules
Representation
  • Bag of words, n-gram terms
  • Phrases, concepts or ontology
  • Relational
  • Edged labeled graph
  • Relational
Graph
  • Relational Table
  • Graph
Application Categories
  • Categorization
  • Clustering
  • Finding Extract rules
  • Finding Patterns in text
  • Finding frequent sub structures
  • Web site schema discovery
  • Categorization
  • Clustering
  • Site construction
  • Adaptation and management