色噜噜人体337p人体 I 超碰97观看 I 91久久香蕉国产日韩欧美9色 I 色婷婷我要去我去也 I 日本午夜a I 国产av高清怡春院 I 桃色精品 I 91香蕉国产 I 另类小说第一页 I 日操夜夜操 I 久久性色 I 日韩欧在线 I 国产深夜在线观看 I 免费的av I 18在线观看视频 I 他也色在线视频 I 亚洲熟女中文字幕男人总站 I 亚洲国产综合精品中文第一 I 人妻丰满熟av无码区hd I 新黄色网址 I 国产精品真实灌醉女在线播放 I 欧美巨大荫蒂茸毛毛人妖 I 国产一区欧美 I 欧洲亚洲1卡二卡三卡2021 I 国产亚洲欧美在线观看三区 I 97精品无人区乱码在线观看 I 欧美妇人 I 96精品在线视频 I 国产人免费视频在线观看 I 91麻豆国产福利在线观看

基于可擴展的網(wǎng)頁關(guān)鍵信息抽取研究論文

時間:2021-04-14 16:23:04 論文 我要投稿

基于可擴展的網(wǎng)頁關(guān)鍵信息抽取研究論文

  1 引言

基于可擴展的網(wǎng)頁關(guān)鍵信息抽取研究論文

  網(wǎng)頁的關(guān)鍵信息是網(wǎng)頁的最基本的信息,它體現(xiàn)了該網(wǎng)頁和其他網(wǎng)頁的差別。常見的關(guān)鍵信息有正文、作者、來源、發(fā)布時間等。在網(wǎng)絡(luò)輿情監(jiān)控、網(wǎng)絡(luò)情報分析、搜索引擎等重大網(wǎng)絡(luò)應(yīng)用中,這些關(guān)鍵信息都是后期分析挖掘必不可少的基礎(chǔ)數(shù)據(jù)。需要利用網(wǎng)絡(luò)信息抽取技術(shù)從網(wǎng)頁中抽取出這些關(guān)鍵信息。從某種角度上講,關(guān)鍵信息的抽取質(zhì)量直接決定了網(wǎng)絡(luò)應(yīng)用服務(wù)的效果。因此,網(wǎng)頁的關(guān)鍵信息抽取研究具有重大的應(yīng)用價值。

  隨著網(wǎng)頁規(guī)模呈指數(shù)級增長,在網(wǎng)絡(luò)應(yīng)用中,模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法以其特有的優(yōu)勢成為信息抽取環(huán)節(jié)的主流算法。該算法通常針對特定需求,利用一些經(jīng)驗規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁。因為抽取過程無需人工干預(yù),所以此類算法越來越多地應(yīng)用于實際網(wǎng)絡(luò)環(huán)境中。基于模板的信息抽取算法充分利用了動態(tài)網(wǎng)頁的規(guī)律:網(wǎng)頁是由同一個模板生成的,屬于模板的符號不會變化,變化的只是模板中填充的數(shù)據(jù)。因此,該算法在對動態(tài)網(wǎng)頁進行抽取時能夠取得較高的精度。

  但是,這兩類抽取算法也存在著其固有的缺陷。模板無關(guān)的全自動抽取算法通常基于過強的假設(shè)。在處理多樣性日益顯著的網(wǎng)頁時,常常因為某些網(wǎng)頁不符合假設(shè),而導(dǎo)致出現(xiàn)抽取精度不能滿足需求的情況;并且由于使用過多規(guī)則,導(dǎo)致抽取效率低的情況。使用基于模板的信息抽取算法進行抽取時,需先針對某類網(wǎng)頁學(xué)習(xí)出模板,后人工標(biāo)注。面對日益增多的數(shù)據(jù)源,會導(dǎo)致網(wǎng)絡(luò)應(yīng)用的運維代價過大;同時日益復(fù)雜的網(wǎng)頁使得模板的準(zhǔn)確性下降,從而導(dǎo)致抽取精度下降。

  針對上述模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法的缺陷,本文進行了深入研究。本文的貢獻主要有以下兩點。首先,提出了一種可擴展的網(wǎng)頁關(guān)鍵信息抽取框架。該框架通過輸入訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果,生成關(guān)鍵信息模板集。再通過模板的正交過濾算法,生成候選的關(guān)鍵信息模板。最后通過模板的特征過濾算法,生成最終的關(guān)鍵信息模板。利用該模板可快速、準(zhǔn)確地從同類型網(wǎng)頁中抽取關(guān)鍵信息。該框架很好地融合了模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法,使得兩類算法能夠充分發(fā)揮各自的優(yōu)點,并在缺點方面互相彌補。實驗結(jié)果表明,該框架能夠在抽取精度、抽取效率方面有本質(zhì)上的提高。此外,該框架具有很好的可擴展性,框架中的一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進行替換。其次,本文提出了模板的正交過濾算法,該算法將訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果分成若干份,生成若干個模板,再通過模板的正交過濾算法,過濾掉模板中的噪音部分,得到候選模板。將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性,最后的實驗結(jié)果也充分驗證了這一結(jié)論。

  2 相關(guān)工作

  網(wǎng)頁信息抽取是一種針對網(wǎng)絡(luò)數(shù)據(jù)源和網(wǎng)頁進行深度處理和加工的過程。由于網(wǎng)頁的復(fù)雜性和多樣性,使得網(wǎng)頁信息抽取算法也越來越多。常見的網(wǎng)頁信息抽取算法主要可分為4類:包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關(guān)的全自動信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預(yù),所以在實際的工程應(yīng)用中,基于模板的信息抽取算法和模板無關(guān)的全自動信息抽取算法以其較強的實用性占據(jù)了主流的位置。基于模板的信息抽取通常基于這樣的假設(shè):待抽取的網(wǎng)頁是由同一個模板生成的,屬于模板的'符號不會變化,變化的只是模板中填充的數(shù)據(jù)。符合這種生成模型的網(wǎng)頁都可以利用網(wǎng)頁模板分析方法來抽取。互聯(lián)網(wǎng)上大量存在的動態(tài)網(wǎng)頁是由機器生成的(例如論壇)網(wǎng)頁。基于模板的信息抽取的工作流程是:

  1)利用多個同類型網(wǎng)頁中具有共性的不變的部分生成一個模板;

  2)根據(jù)模板對同類型網(wǎng)頁進行抽取。因為此類算法過濾了網(wǎng)頁中的大量模板,只留下了數(shù)據(jù),同時自動還原出了數(shù)據(jù)的結(jié)構(gòu),使得用戶在付出較小人工代價的同時,能夠獲得較為準(zhǔn)確的關(guān)鍵信息。因此此類算法一直都是網(wǎng)絡(luò)應(yīng)用中的主流算法。但是該類算法具有這樣的缺陷:首先需要針對同類型的網(wǎng)頁生成一個模板。模板的準(zhǔn)確性直接決定了后續(xù)信息抽取的精確度。隨著網(wǎng)頁復(fù)雜性以及同一類型網(wǎng)頁的差異性的增大,生成的模板準(zhǔn)確性隨之降低。模板無關(guān)的全自動信息抽取算法進一步提高了信息抽取的自動化程度。此類算法通常利用一些經(jīng)驗規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁,例如,經(jīng)典的全自動信息抽取算法MDR。該算法的缺陷在于通常基于過強的假設(shè)。以網(wǎng)頁正文抽取為例。網(wǎng)頁的正文往往是各大網(wǎng)絡(luò)應(yīng)用都需要的關(guān)鍵信息,有不少針對正文抽取的模板無關(guān)的全自動抽取算法。CoreEx是通過計算DOM 樹中的鏈接文本比來確定正文所在的范圍。CETR是通過標(biāo)簽的密度來確定正文所在的范圍。CETD結(jié)合了二者優(yōu)點。這些算法自動化程度高,通用性強,但是效率較低,且假設(shè)過強,精確度不如基于模板的算法。VIPS是一種通用性較強的算法,但是它需要渲染網(wǎng)頁。因此這種方法的效率較低。

  在以往的文獻中,較少看到將模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法結(jié)合使用的相關(guān)研究。在本文提出的框架中,巧妙地將這兩種算法有機地結(jié)合起來,使得二者能夠取長補短,從本質(zhì)上提高信息抽取的質(zhì)量。

【基于可擴展的網(wǎng)頁關(guān)鍵信息抽取研究論文】相關(guān)文章:

基于數(shù)據(jù)抽取與訂閱實現(xiàn)數(shù)據(jù)共享分析及研究論文10-30

合理定價評審抽取研究論文03-30

有關(guān)合理定價評審抽取的研究論文04-03

基于多單片機的串口擴展設(shè)計論文11-17

基于科技信息共享云服務(wù)機制研究論文11-02

基于Web的農(nóng)機推廣信息系統(tǒng)的研究與設(shè)計論文11-02

基于GIS的農(nóng)業(yè)動態(tài)信息共享網(wǎng)絡(luò)平臺研究論文11-07

基于CDI0理念下的《網(wǎng)頁設(shè)計》教學(xué)思考與研究的論文01-11

基于視覺搜索因素的網(wǎng)頁設(shè)計論文11-15

主站蜘蛛池模板: 超碰国产在线播放 | 91久久奴性调教 | 在线日韩| 成人资源网 | 午夜久久久久久久久久久久 | 亚洲成人中文字幕在线 | 欧美人与性动交α欧美精品 | 成人动漫免费视频 | 欧美影院一区二区 | 亚洲第一综合 | 亚洲欧美日韩国产手机在线 | 妇女av | 少妇高清精品毛片在线视频 | 欧美日韩亚洲二区 | 亚洲欧美成人a∨观看 | 91久久精品国产91久久性色tv | 国产超碰无码最新上传 | 91爱爱爱爱 | 蜜桃免费在线视频 | 91亚洲精品国偷拍 | 交换交换乱杂烩系列yy | 亚洲国产精品一区二区美利坚 | 欧美天堂在线 | 亚洲一本通 | 欧美s码亚洲码精品m码 | 91视频 - 88av | 国产高清视频在线一区 | 亚洲午夜中文字幕 | 日韩在线看片免费人成视频播放 | 天美星空大象mv视频在线观看 | 青青视频精品观看视频 | 亚洲精品午夜国产va久久成人 | 亚洲精品自产拍在线观看 | 国产精品美女www爽爽爽视频 | 亚洲精品国产a久久久久久 中文字幕一二三区芒果 | 动漫精品啪啪h一区二区网站 | 沈阳45老熟女高潮喷水亮点 | 亚洲伊人色欲综合网无码中文 | 在线亚欧观看2023 | 国产免费一区二区三区香蕉精 | 无码h黄肉动漫在线观看网站 | 精品久久久久久久久久久久包黑料 | 92在线观看免费视频日本 | 成人永久aaa | 亚洲欧美日本中文字不卡 | 影音先锋女人aa鲁色资源 | 男男肉多小说 | 亚洲精品午夜理伦不卡在线观看 | 亚洲暴爽av人人爽日日碰 | 精品成人一区二区 | 国产视频一区二区三区在线观看 | 国产伦精品一区二区三区视频无 | 国产精品啊啊啊 | 日韩成人片 | 欧美在线视频第一页 | аⅴ天堂最新版在线中文 | 日本aaa一级片| 福利网址在线观看 | 欧美性生交大片免费视频 | 高清国产mv视频在线观看 | 高潮一区二区三区 | 18www免费人成看 | 精品欧美一区二区久久久 | 野花社区在线www日本 | 亚洲成a人片在线观看久 | 中文天堂在线最新版在线www | 日韩高清观看 | 久久久久久久国产精品影视 | 天堂网视频在线 | 国产手机在线无码播放视频 | 午夜激情小视频 | 欧美在线观看19 | 成人免费av在线播放 | 国产欧美日韩一区 | 欧美精品片 | 色夜影院 | 成人免费视频小说 | 久久综合色另类小说 | 亚洲欧洲美洲在线观看 | 91av毛片 | 久久看片网 | 四虎官网 | 亚洲国产成人91porn | 久久久国产一级 | 精品国产精品久久一区免费式 | 国产视频在线观看一区 | 国产免费久久精品99re丫丫一 | 亚洲愉拍二区一区三区 | 性欧美激情aa片在线播放 | 人妻人人做人碰人人添青青 | 欧美日韩国产一区二区三区 | 欧美日韩亚州综合 | 在线观看免费黄色 | 久久久精品人妻一区二区三区四 | 亚洲精品第一 | 老司机午夜精品视频资源 | 人妻aⅴ无码一区二区三区 亚洲熟妇无码av不卡在线观看 | 久久精品九九 | 99久久精品国产成人一区二区 |