当前位置 : 首页 > 最新资讯 > 计算机论文范文 > 【原】教育新闻采访系统设计分析

【原】教育新闻采访系统设计分析

来源 : 互联网
作者 : 118期刊网
发布时间 : 2019-04-13 21:58:32

第一章绪论


1.1研究背景和意义

近年来,随着互联网规模和用户的不断增加,互联网的应用迅速发展,中国的信息化水平迅速提高。互联网已成为人们了解世界,讨论问题,购物和休闲,甚至从事学术研究和商业活动的重要领域。由于互联网的开放性和快速传播,它已成为人们发布信息和获取信息的重要渠道。据CNNIC第29次互联网报告[1],截至2011年12月底,中国互联网用户数突破5亿,达到5.13亿;中国网页数量为866亿,比2010年同期增长44.3%。

其中,在线新闻在互联网上排名第四,使用率为71.5%[Ll。基于互联网,依托互联网的优势,网络新闻有效地推动了新闻报道的发展,开辟了媒体的新纪元。由于其快速,及时,多样化和互动性,在线新闻已迅速成为大多数互联网用户的主要信息来源之一。

网络新闻的出现大大增加了新闻信息的数量;而在线新闻的低门槛导致了各种各样的在线新闻,质量参差不齐以及垃圾邮件的泛滥,这影响了人们获取信息的速度和便利性。为了解决这个问题,谷歌和百度等主要商业搜索引擎都推出了自己的新闻聚合平台,这在一定程度上缓解了人们在互联网上阅读新闻的难度。

然而,虽然现有的新闻聚合平台提供了便利,但也存在一些缺点:

(1)信息分布不均衡:不同行业的新闻数量差异很大,教育或科学内容相对较小。

(2)处理粒度:这些系统由整个Internet进行研究和处理,处理粒度较大。因此,这些平台不适合大学和企业等组织。

(3)技术不公开:由于行业竞争或商业秘密,这些平台的算法没有公开,新闻的可靠性有待提高。

(4)未知信息来源:大多数是商业内容,不可避免地包含一些虚假和不真实的内容,一些搜索引擎人为地干扰结果的排名。

因此,人们对新闻聚合平台提出了新的要求,希望开发一个特定区域和特定人群资源消耗相对较小的新闻系统。

针对上述问题,本课题整合了互联网上的主题采集,网页动态更新,网络信息提取等信息处理技术,设计了教育新闻采集系统,为教育新闻采集系统提供准确,及时,整洁的教育新闻数据。教育新闻聚合平台。 。


1.2国内外研究现状


1.2.1主题爬虫

主题爬虫是新闻聚合平台和垂直搜索引擎的重要组成部分。它是新闻聚合平台和垂直搜索引擎的数据源,它直接决定了结果的质量。普通的爬虫通过URL检索网页,然后解析网页,获取新的URL,抓取新的网页,并循环遍历它,直到满足结束条件。主题抓取工具在此基础上添加主题过滤功能,以便抓取工具尽可能抓取相关网页,并尽可能少地抓取不相关的网页;在减少资源消耗的同时,还可以提高后续操作的准确性。因为无用的冗余信息较少。

最早的主题爬虫出现在1994年,是一个系统搜索系统,使用查询来指导信息收集。下面描述一些代表性系统。


1.2.2网页更新策略

进入Web2.0时代,Web开发技术已经开始成熟。比以往更容易修改和更新网页。因此,Internet上的网页更新越来越频繁,更新周期越来越短。文献[o.o的研究表明,互联网现在每周产生3.2亿个新网页,20%的网页将在一年内消失,并且_50%的文档将在一年内发生变化。与此同时,人们越来越要求信息的及时性。即使它是非常真实和有价值的信息

一旦它失去了及时性,就会无人看管。

早期搜索引擎通常使用固定的时间段来更新本地Web库中的信息,通常每月或每周进行一次完整的数据更新。然而,随着网页的爆炸性增长,这种策略已经变得不可行。为此,出现了增量更新方法。基本思想是互联网上的一些网页不稳定,有些网页非常稳定。如果在每个更新过程中仅更新改变的网页,则可以节省大量资源并且可以缩短更新周期。

随着研究的深入,J Cho和Anirban D等学者总结了两种更新策略:统一更新策略和个人更新策略。如果收集系统以相同的频率更新本地网页库中的所有网页,则称为统一更新策略;如果收集系统根据每个页面的频率和站点更改来更新页面,则称为单个更新策略。

在所有网页具有相同重要性的情况下,频繁收集变化频率高的网页不能显着提高整体时间效率;但实际情况是,通过综合考虑网络的拓扑图和网页的变化,网页的重要性是不同的。法律,网页的及时性等,学者们提出了更实际的更新。


1.2.3网页信息提取

Web信息提取(WIE)的前身是文本理解,它最初始于20世纪60年代中期,主要是从自然语言文本中获取结构化信息。在20世纪80年代后期,由于文本数量和消息理解会议(MUC)的急剧增加,对信息提取技术论文发表的研究开始蓬勃发展。后来,互联网的发展导致了信息提取向Web信息提取的发展。 Web信息提取与传统信息提取之间的最大区别在于数据是半结构化的。

1.3主要研究工作和内容

本文的主要目标是设计和实现一个高性能的教育新闻采集系统,为教育新闻聚合平台提供有效,清新,整洁的数据信息。针对目前通用采集系统和主题采集系统存在的两个问题,以及当前木棉系统中主题信息提取模块存在的两个问题,提出了相应的解决方案,并进行了测试和结果分析。执行。

解决的主要问题如下:

1)现有主题收集方法的主题漂移问题;

2)现有网页更新策略不符合导航类型页面的更新功能,导致收集时效性差;

3)当前木棉搜索系统的主题信息提取的一般性差,页面标题提取的准确性低的问题。

完成的具体工作包括:

1)调查国内外信息收集系统和局部爬虫系统的研究现状和结果。

2)研究当前信息采集系统中网页更新的策略和方法,详细分析导航网页的更新周期和规律。

3)研究当前Web信息提取的研究现状,以及当前主题提取木棉搜索中存在的问题。

4)设计并实现基于链接块锚文本的教育新闻过滤模块。

5)设计并实现教育新闻采集的动态调度模块。

6)设计并实现网页标题和文本提取系统。

7)系统的准确性,性能测试和结果分析。

8)设计并实施有效的教育新闻采集系统。


1.4纸质组织结构

本文分析了现有的主题采集策略,动态调度策略和信息提取方法,并提出了相应的改进方法。最后,设计并实施教育新闻动态收集系统。

论文章节安排如下:

第一章:全面论述了本课题的研究背景和意义,介绍了国内外的研究现状,研究工作和研究内容。

第二章:对主题相关技术的研究,分析了主题过滤,动态调度和信息提取的难点。

第三章:系统架构设计和模块设计,系统模块和工作流程详细介绍。

第4章:

详细描述每个模块的具体设计和实现。

第五章:介绍系统的实验结果并进行分析。

最后,总结了该主题,并提出了下一步研究工作的重点。


第二章相关理论......................... 16-28

2.1信息收集系统....................... 16-20

2.1.1网页下载..................... 16-17

2.1.2网页分析........................ 17-18

2.1.3 URL重复数据删除....................... 18

2.1.4 URL调度.................... 18-19

2.1.5工作流程....................... 19-20

2.2主题收集相关........................... 20-22

2.2.1基于文本........................... 20-21

2.2.2基于分类................................ 21

2.2.3基于链路的分析......................... 21-22

2.3动态信息收集............................ 22-24

2.3.1网页更新周期.................. 23

2.3.2动态采集策略............................ 23-24

2.4网页信息抽取............ 24-27

2.4.1 HTML ......................... 24-25

2.4.2 DOM ......................... 25-26

2.4.3 SAX ............................. 26

2.4.4基于块的信.......... 26-27

2.5本章概要.............................. 27-28

第三章教育新闻采集部.......................... 28-33

3.1系统的设计目标.......................... 28

3.2系统模块组成.......................... 28-29

3.3系统工作流程....................... 29-31

3.4系统架构.............................. 31-32

3.5本章概要...................................... 32-33

第四章系统的详细设计.............................. 33-57

.................................................. ................................................


总结和展望

主题信息收集系统是构建垂直搜索引擎等应用程序的关键技术之一,其性能直接影响垂直搜索引擎的性能。因此,本文的工作是研究教育新闻的收集和新闻信息的提取。从浅层到深层,介绍了主题信息采集系统,动态更新技术,网页信息提取的相关原理和技术,设计并实现了教育新闻采集系统。本文完成的具体工作包括:

(1)调查国内外专题信息采集系统,动态更新技术和信息提取系统的研究现状和成果,分析研究网络信息采集系统的工作原理和组成部分,深化采集策略和动态。主题采集系统的更新技术。 ,网页信息提取等问题。

(2)设计并实现了一种基于链接块的基于主题的过滤算法,解决了短文本长度导致的低精度问题和新网络字引起的主题方向漂移问题。

(3)设计并实现了教育新闻动态调度模块,实现了动态新闻采集,有效提高了本地网页库的及时性和新闻内容的及时性。

(4)利用浅文特征和统计方法实现标题和正文的提取,并具有很好的通用性,且速度也非常快,大大提高了后续处理的准确性。

(5)分别对上述三个主要模块进行了测试,验证了三个模块的有效性,并对实验结果进行了分析。

虽然本论文的研究取得了一定的成果,但仍有一些不足之处需要改进,这也是未来工作的方向:

(1)该系统目前仅用于教育站点,处理的数据量不够大,需要在大量数据中进行测试和优化。现在是海量数据的时代,如何有效地扩展到多节点,大数据采集是这个系统需要解决的问题。

(2)该系统的某些模块在功能和性能方面仍有许多需要改进和改进的方面。有必要在实践和长期运作中发现一些问题,然后有针对性地解决问题。


引用

[1]任昌。基于多特征融合的网络对象自动定位技术研究[D]。中国北方大学2011

[2]彭聪。移动网络环境下网页排序算法研究[D]。湖南大学2010

[3]董娟。基于页面结构分析的网页信息提取方法研究[D]。

[4]刘俊荣。 基于行为识别的网页文本分类算法研究与实现[D]。 北京邮电大学2010

[5]宋伟。 网络去噪在互动电视中的应用与研究[D]。 上海交通大学2011

[6]刘典型。 多页专网页文本提取与合并技术研究[D]。 湖南大学2010

[7]刘洋。 基于内容的搜索引擎网页重复数据删除研究[D]。 江苏大学2010

[8]陈伟。 用户体验的Web界面优化设计方法研究[D]。 重庆大学2010

[9]张瑞雪。 基于DOM树的网页相似度研究与应用[D]。 大连理工大学2011

[10]任宇。 网络主题信息提取方法研究[D]。 山西大学2010


更多优惠

期刊推荐