两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

漢語作文自動測試方法及系統(tǒng)的制作方法

文檔序號:6432146閱讀:181來源:國知局
專利名稱:漢語作文自動測試方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及電子信息行業(yè)人工智能技術(shù)領(lǐng)域,尤其涉及一種漢語作文自動測試方法及系統(tǒng)。
背景技術(shù)
近年來,隨著學(xué)習(xí)漢語的不斷流行,漢語水平測試在已經(jīng)受到了普遍的重視,在漢語水平測試中寫作水平測試是測試語言學(xué)習(xí)效果的最有效的方法。傳統(tǒng)的漢語作文測試評分基本采用人工對作文進(jìn)行評閱,得到考生的作文評分,這種方法存在以下缺點1)人工閱卷評分面臨著巨大的人力和財力投入;幻人工閱卷評分尺度不統(tǒng)一,主觀性強(qiáng)。計算機(jī)應(yīng)用、人工智能應(yīng)用、自然語言處理等技術(shù)的發(fā)展,為實現(xiàn)語言測試自動化提供了技術(shù)方面的支持。目前,國外已有較為成熟的英語作文自動測試系統(tǒng),其基本的思路無外乎通過各種自然語言技術(shù)提取文本特征,用人工評分以及高效的機(jī)器學(xué)習(xí)與人工智能方法,對特征與分?jǐn)?shù)之間的關(guān)系進(jìn)行學(xué)習(xí),通過所得的特征與評分的關(guān)系進(jìn)行自動的作文評分。而國內(nèi),針對漢語的作文測試系統(tǒng)還處于起步的研究狀態(tài)中,未能有深入而系統(tǒng)的研在中國少數(shù)民族漢語水平等級考試(MHK)的作文測試評分中,評分標(biāo)準(zhǔn)從作文的內(nèi)容、條理和語言三個方面來評價的。作文的內(nèi)容評價方面指的是考生作文的寫作內(nèi)容是否完整、充實,是否與題目要求的中心思想密切聯(lián)系;作文的條理評價方面指的是考生作文的寫作條理是否清晰,前后是否緊密連貫,句意轉(zhuǎn)換是否自然、流暢;作文的語言評價方面指的是考生作文的寫作語言是否自然、流暢,句式是否多樣化,遣詞造句是否恰當(dāng)。評卷老師通過三個方面的綜合評定來給出最終的作文評分。在實現(xiàn)本發(fā)明的過程中,申請人意識到現(xiàn)有技術(shù)存在如下技術(shù)缺陷現(xiàn)有漢語作文自動評分研究的做法目前較為單一,僅僅統(tǒng)計了一些淺表統(tǒng)計特征,和零星的部分語言特征,缺乏對這三方面特征有一個系統(tǒng)的規(guī)劃。

發(fā)明內(nèi)容
(一)要解決的技術(shù)問題為解決上述缺陷,本發(fā)明提供了一種漢語作文自動測試方法及系統(tǒng),以克服現(xiàn)有漢語作文自動評分研究的做法目前較為單一,缺乏對這三方面特征有一個系統(tǒng)的規(guī)劃的缺陷。( 二 )技術(shù)方案根據(jù)本發(fā)明的一個方面,提供了一種漢語作文自動測試方法。該方法包括步驟 A 輸入作文文本待評語料,對作文文本待評語料進(jìn)行預(yù)處理;步驟B 通過主題內(nèi)容模型、 條理結(jié)構(gòu)模型和語言表達(dá)特征模型對預(yù)處理后的作文文本待評語料提取主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達(dá)特征;步驟C 對所提取的主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達(dá)特征用評分方程進(jìn)行計算,獲得漢語作文的自動評分結(jié)果。
優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟A之前還包括步驟A'輸入作文文本訓(xùn)練語料,對作文文本訓(xùn)練語料進(jìn)行預(yù)處理,預(yù)處理的步驟與步驟A中預(yù)處理的步驟相同;步驟B'建立主題內(nèi)容模型、條理結(jié)構(gòu)模型、語言表達(dá)特征模型;并通過三個模型對預(yù)處理后的作文文本訓(xùn)練語料進(jìn)行主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達(dá)特征的提取,特征提取的步驟與步驟B中特征提取的步驟相同;步驟C'依據(jù)對作文文本訓(xùn)練語料所提取的特征和其人工評分進(jìn)行評分的線性擬合,得到評分方程。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟A和步驟A'中對作文文本語料進(jìn)行預(yù)處理包括步驟Al 對作文文本語料進(jìn)行非標(biāo)準(zhǔn)字符集的修改和去除;步驟A2 對作文文本語料中無意義的符號進(jìn)行去除;步驟A3 對作文文本語料中無意義的漢字亂碼進(jìn)行去除;步驟A4 對作文文本語料進(jìn)行漢字分詞處理,其中作文文本語料在步驟A'中為作文文本訓(xùn)練語料;在步驟A中為作文文本待評語料。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟B和步驟B'中通過主題內(nèi)容模型對預(yù)處理后的作文文本語料提取主題內(nèi)容特征包括步驟Bla 用預(yù)處理后作文文本語料進(jìn)行潛在語義分析空間訓(xùn)練;步驟Blb 將潛在語義分析空間訓(xùn)練后的作文文本語料映射到潛在語義空間中,映射的方式為以下方式其中之一 1、潛在語義分析中以全文為文檔單元的方式;或2、基于序列潛在語義分析的以小于全文為文檔單元的方式;步驟Blc 對同主題作文文本語料映射得到的潛在語義向量與對應(yīng)的人工文本打分進(jìn)行支持向量回歸分析, 得到主題內(nèi)容模型;步驟Bld 用此主題內(nèi)容模型對作文文本語料進(jìn)行主題內(nèi)容模型特征的提取,得到主題內(nèi)容特征;其中作文文本語料在步驟B'中為作文文本訓(xùn)練語料;在步驟B中為作文文本待評語料。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟Blb中采用映射方式2將同主題作文文本語料映射到潛在語義空間包括Blbl 將單篇的作文文本語料文本切分為η份,每一份分別映射到潛在語義空間中;Blb2 將得到的映射向量進(jìn)行原順序的重組合,得到此篇作文文本保留序列信息的潛在語義向量。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟Blc中對得到的潛在語義向量與對應(yīng)的作文文本語料的人工評分進(jìn)行支持向量回歸分析,得到主題內(nèi)容模型,包括=Blcl 支持向量回歸分析的核函數(shù)選用徑向基核函數(shù),對訓(xùn)練語料進(jìn)行交叉驗證實驗,得到最優(yōu)的支持向量回歸分析參數(shù);Blc2 將所得參數(shù)用于主題內(nèi)容模型中。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟B和步驟B'中通過條理結(jié)構(gòu)模型提取預(yù)處理后的作文文本語料的條理結(jié)構(gòu)特征包括步驟B2a 提取預(yù)處理后的作文文本語料的長度;步驟B2b 提取預(yù)處理后的作文文本語料的句子數(shù);步驟B2c 提取預(yù)處理后的作文文本語料的段落數(shù);步驟B2d 提取預(yù)處理后的作文文本語料的平均句長;步驟B2e 提取預(yù)處理后的作文文本語料的變化度;步驟B2f 提取預(yù)處理后的作文文本語料的平均段長;步驟B2e 提取預(yù)處理后的作文文本語料的段長變化度,其中,條理結(jié)構(gòu)特征模型即為基于統(tǒng)計的方法提取以上各種特征的模型,而這些特征也即構(gòu)成了條理結(jié)構(gòu)特征;作文文本語料在步驟B'中為作文文本訓(xùn)練語料;在步驟B中為作文文本待評語料。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟B和步驟B'中通過語言表達(dá)特征模型提取預(yù)處理后的作文文本語料的語言表達(dá)特征中,語言表達(dá)特征模型包括以下兩個模型B3,基于淺表統(tǒng)計的語言表達(dá)特征模型;和B3',基于詞匯評分的語言表達(dá)特征模型;其中,作文文本語料在步驟B'中為作文文本訓(xùn)練語料;在步驟B中為作文文本待評語料。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟B和步驟B'中通過語言表達(dá)特征模型提取預(yù)處理后的作文文本訓(xùn)練語料的語言表達(dá)特征包括步驟B3a 對預(yù)處理后的作文文本訓(xùn)練語料進(jìn)行用詞詞匯豐富度的統(tǒng)計,詞匯豐富度是指單篇作文中采用的不同詞匯數(shù)目;步驟B3b 對預(yù)處理后的作文文本訓(xùn)練語料統(tǒng)計其中各類詞性所包含的詞匯的數(shù)目、 統(tǒng)計詞匯中各類詞性所包含的不同詞匯的數(shù)目;步驟B3c 在作文文本訓(xùn)練語料中采用交叉驗證的方式,計算以上所得特征與人工評分相關(guān)度,保留相關(guān)度較大的特征,作為當(dāng)前模型所提取的特征,其中,基于淺表統(tǒng)計的語言表達(dá)特征模型即為通過特征選擇方法統(tǒng)計和選擇以上各個特征的模型,而最終選取的特征即為此模型所提取的語言表達(dá)特征;作文文本語料在步驟B'中為作文文本訓(xùn)練語料;在步驟B中為作文文本待評語料。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟B和步驟B'中通過語言表達(dá)特征模型提取預(yù)處理后的作文文本訓(xùn)練語料的語言表達(dá)特征包括步驟B3' a 通過人工評分的訓(xùn)練語料估計每個詞匯的評分,得到基于詞匯評分的語言表達(dá)特征模型;步驟B3' b 通過每個詞匯的估計評分,對待評作文的每個詞匯評分進(jìn)行線性加權(quán),得到基于詞匯評分的語言表達(dá)特征;其中,作文文本語料在步驟B'中為作文文本訓(xùn)練語料;在步驟B中為作文文本待評語料。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟C'包括依據(jù)對作文文本訓(xùn)練語料所提取的特征和其人工評分進(jìn)行最小二乘法的線性擬合,得到對于主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達(dá)特征的評分方程。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟A'和步驟A中的作文文本訓(xùn)練語料和作文文本待評語料均為同一主題語料。根據(jù)本發(fā)明的另一個方面,還提供了一種漢語作文自動測試系統(tǒng)。該系統(tǒng)包括預(yù)處理裝置,用于對輸入的作文文本待評語料進(jìn)行預(yù)處理;特征提取裝置,用于通過預(yù)設(shè)的主題內(nèi)容模型、條理結(jié)構(gòu)模型和語言表達(dá)特征模型對預(yù)處理后的作文文本待評語料進(jìn)行主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達(dá)特征提取,主題內(nèi)容模型、條理結(jié)構(gòu)模型、語言表達(dá)特征模型為根據(jù)預(yù)處理后的作文文本訓(xùn)練語料建立的;自動評分裝置,用于對所提取的特征用預(yù)設(shè)的評分方程進(jìn)行計算,獲得漢語作文的自動評分結(jié)果,評分方程為依據(jù)對作文文本訓(xùn)練語料所提取的特征和其人工評分進(jìn)行評分的線性擬合獲取的。優(yōu)選地,本發(fā)明漢語作文自動測試系統(tǒng)中,特征提取裝置與輸入裝置相連接;自動評分裝置與特征提取裝置相連接。(三)有益效果本發(fā)明漢語作文自動測試方法及系統(tǒng)具有下列有益效果1、針對當(dāng)前日益擴(kuò)大的漢語作文水平測試,本發(fā)明減少大規(guī)模漢語作文水平測試中的人力物力投入,并實現(xiàn)了評分的客觀化;2、本發(fā)明從傳統(tǒng)人工評分準(zhǔn)則入手,模擬人工評分方式,仍然從內(nèi)容、條理、語言三方面對作文水平進(jìn)行評估,在評分過程中采用自然語言處理技術(shù)、機(jī)器學(xué)習(xí)和人工智能方法,使得系統(tǒng)的評分能夠接近于人工評分,而又解決了人工評分存在主觀因素的影響,從而獲得準(zhǔn)確而又客觀的機(jī)器評分;3、本發(fā)明能夠處理讀后感、看圖作文等多種主題限定性方式的作文。針對不同的主題作文,通過預(yù)先的收集同一主題作文文本語料和部分語料的人工評分,利用自然語言處理的技術(shù)對語料進(jìn)行特征提取,同時利用機(jī)器學(xué)習(xí)和人工智能技術(shù)對特征和人工評分進(jìn)行關(guān)系刻畫,得到系統(tǒng)評分模型,通過評分模型對待評測的作文進(jìn)行自動作文評分。


圖1為本發(fā)明漢語作文自動測試方法的總流程框圖;圖2為本發(fā)明實施例漢語作文自動測試方法中主題內(nèi)容特征提取步驟的流程框圖;圖3為本發(fā)明實施例漢語作文自動測試方法中條理結(jié)構(gòu)特征提取步驟的流程框圖;圖4為本發(fā)明實施例漢語作文自動測試方法中語言表達(dá)特征提取步驟的流程框圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。對本發(fā)明漢語作文自動測試方法及系統(tǒng)的原理及與傳統(tǒng)人工作文評分的關(guān)系進(jìn)行說明。在傳統(tǒng)的人工作文評分中,是通過評卷人對作文的直觀印象來給予得分的,但是評分準(zhǔn)則的存在,也在很大程度了限制了人工評分的自由性,從而使得評分更加客觀而合理。 因此,針對這種傳統(tǒng)的人工評分理念,本發(fā)明漢語作文自動測試方法也依據(jù)評分準(zhǔn)則,從內(nèi)容、條理、語言三個方面來對作文進(jìn)行衡量,力求得到自動評分結(jié)果符合人工評分的本質(zhì)。圖1為本發(fā)明漢語作文自動測試方法的總流程框圖。如圖1所示,本發(fā)明漢語作文自動測試方法主要由以下幾個流程組成預(yù)處理過程(包括作文文本訓(xùn)練語料和作文文本待評語料);用作文文本訓(xùn)練語料進(jìn)行內(nèi)容、條理、語言三方面特征的建模和特征抽取過程;用建好的模型進(jìn)行作文文本待評語料進(jìn)行內(nèi)容、條理、語言三方面特征的提取,并結(jié)合人工評分進(jìn)行回歸擬合分析,最終進(jìn)行評分的過程。以下結(jié)合圖1及圖2-4對發(fā)明的各步驟進(jìn)行具體闡述。一、預(yù)處理過程首先,通過電腦的輸入獲得作文語料的作文文本語料;其次,對獲取的作文文本語料做標(biāo)準(zhǔn)化處理,也即去除文本文件中的亂碼字符,同時對各類標(biāo)點做統(tǒng)一編碼處理,對作文文本語料中無意義的符號進(jìn)行去除,對作文文本語料中無意義的漢字亂碼進(jìn)行去除;最后,對標(biāo)準(zhǔn)化的作文語料做分詞以及詞性標(biāo)注處理(采用中國科學(xué)院自動化研究所吳友政的分詞標(biāo)注系統(tǒng))。這樣就獲得了預(yù)處理標(biāo)準(zhǔn)化后的作文文本語料,該文本包含了考試所寫的標(biāo)題、字詞、標(biāo)點、句子、段落等全部的完整信息。其中,此處的作文文本語料包括了作文文本訓(xùn)練語料和作文文本待評語料。二、特征模型構(gòu)建和特征提取過程從主題內(nèi)容、條理結(jié)構(gòu)、語言表達(dá)三方面進(jìn)行特征模型的構(gòu)建和提取。主題內(nèi)容特征模型采用基于潛在語義分析的方法,用標(biāo)準(zhǔn)的映射方法,和序列映射方法,提取出共計2 維主題內(nèi)容特征;條理結(jié)構(gòu)模型采用簡單的基于統(tǒng)計的方法,提取出7維條理結(jié)構(gòu)特征;語言表達(dá)特征模型分為兩部分,基于統(tǒng)計的方法,按相關(guān)度大小進(jìn)行特征選擇,保留相關(guān)度較大的特征,而基于詞匯評分的方法,按三種詞匯評分估計方法的不同,計算得到3維的語言表達(dá)特征。將以上各類特征進(jìn)行總結(jié),得到作文評分中的文本特征向量。2. 1主題內(nèi)容特征模型圖2為本發(fā)明實施例漢語作文自動測試方法中主題內(nèi)容特征提取步驟的流程框圖。如圖2所示,基于潛在語義分析所構(gòu)建的主題內(nèi)容特征分析模型,其建模和特征提取方法步驟如下步驟1 主題內(nèi)容特征模型預(yù)處理。將經(jīng)過前一步預(yù)處理后的作文文本訓(xùn)練語料進(jìn)行標(biāo)點符號和停用詞的去除,僅保留能夠表達(dá)主題內(nèi)容的詞匯。步驟2 選取上一步得到的作文文本訓(xùn)練語料η篇,作為潛在語義空間的訓(xùn)練文本,訓(xùn)練此作文主題下的潛在語義空間,得到空間映射函數(shù)。此空間訓(xùn)練語料可以選用任意同一主題作文。實際中,考慮到η過大的情況下,基于奇異值分解(SVD)方法的運(yùn)算量將使得普通電腦難以承受,而且大量的語料訓(xùn)練潛在語義空間并不必要,η值可以適當(dāng)選取。步驟3 將作文文本語料映射到潛在語義空間中,得到潛在語義向量。有兩種映射方法,將在后面的小節(jié)中介紹。步驟4:以作文文本訓(xùn)練語料的潛在語義向量作為特征,并配合以人工評分?jǐn)?shù)據(jù), 構(gòu)建支持向量機(jī)回歸模型,以此作為主題內(nèi)容特征模型。支持向量回歸分析選用徑向基核函數(shù)。通過對訓(xùn)練集采用交叉驗證的方式,獲得支持向量回歸的最優(yōu)參數(shù)。以此參數(shù)和訓(xùn)練集數(shù)據(jù),構(gòu)建支持向量回歸模型。步驟5 以作文文本待評語料的潛在語義向量作為特征,通過上面建立的主題內(nèi)容特征模型,計算待評測作文的主題內(nèi)容特征。以上過程即可構(gòu)建主題內(nèi)容特征模型,并實現(xiàn)作文主題內(nèi)容特征的提取。2. 1. 1基于截斷奇異值分解(tSVD)的潛在語義空間訓(xùn)練對傳統(tǒng)的空間向量模型VSM進(jìn)行降維處理,采用潛在語義空間表示的方法,其空間訓(xùn)練方法步驟如下步驟1 選取一定規(guī)模的作文文本訓(xùn)練語料進(jìn)行潛在語義空間訓(xùn)練模型。要求從全語料中隨機(jī)的選取數(shù)據(jù),能夠盡量涵蓋此主題作文,而不會產(chǎn)生某一方面的數(shù)據(jù)偏差。步驟2 對選出的作文文本語料進(jìn)行詞匯和文檔的統(tǒng)計,建立一個詞匯-文檔矩陣 X。即在矩陣中,每一列代表一篇作文,包含此作文中所有出現(xiàn)過的詞匯;每一行代表一個詞匯,包含所有出現(xiàn)過此詞匯的作文。Xnxp = [doc” doc2,…,docp] = [term” term2,…,termn]T矩陣的元素由詞匯權(quán)重表示,可以釆用詞頻(term frequency)和倒排詞頻(term frequency-inverse document frequency)進(jìn)行計算。tf的統(tǒng)計方式為'Hij是詞匯i在第j篇文檔中出現(xiàn)的次數(shù)。tf-idf的統(tǒng)計方式為
權(quán)利要求
1.一種漢語作文自動測試方法,其特征在于,包括步驟A 輸入作文文本待評語料,對所述作文文本待評語料進(jìn)行預(yù)處理; 步驟B 通過所述主題內(nèi)容模型、條理結(jié)構(gòu)模型和語言表達(dá)特征模型對預(yù)處理后的作文文本待評語料提取主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達(dá)特征;步驟C 對所提取的主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達(dá)特征用所述評分方程進(jìn)行計算,獲得所述漢語作文的自動評分結(jié)果。
2.根據(jù)權(quán)利要求1所述的漢語作文自動測試方法,其特征在于,所述步驟A之前還包括步驟A'輸入作文文本訓(xùn)練語料,對所述作文文本訓(xùn)練語料進(jìn)行預(yù)處理,所述預(yù)處理的步驟與所述步驟A中預(yù)處理的步驟相同步驟B'建立主題內(nèi)容模型、條理結(jié)構(gòu)模型、語言表達(dá)特征模型;并通過三個所述模型對所述預(yù)處理后的作文文本訓(xùn)練語料進(jìn)行主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達(dá)特征的提取,所述特征提取的步驟與步驟B中特征提取的步驟相同;步驟C'依據(jù)對作文文本訓(xùn)練語料所提取的特征和其人工評分進(jìn)行評分的線性擬合, 得到評分方程,其中,所述作文文本待評語料和所述作文文本訓(xùn)練語料統(tǒng)稱為作文文本語料。
3.根據(jù)權(quán)利要求2所述的漢語作文自動測試方法,其特征在于,所述步驟A和步驟A' 中對作文文本語料進(jìn)行預(yù)處理包括步驟Al 對作文文本語料進(jìn)行非標(biāo)準(zhǔn)字符集的修改和去除; 步驟A2 對作文文本語料中無意義的符號進(jìn)行去除; 步驟A3 對作文文本語料中無意義的漢字亂碼進(jìn)行去除; 步驟A4 對作文文本語料進(jìn)行漢字分詞處理。
4.根據(jù)權(quán)利要求2所述的漢語作文自動測試方法,其特征在于,所述步驟B和步驟B’ 中通過所述主題內(nèi)容模型對預(yù)處理后的作文文本語料提取主題內(nèi)容特征包括步驟Bla 用預(yù)處理后作文文本語料進(jìn)行潛在語義分析空間訓(xùn)練; 步驟Blb 將潛在語義分析空間訓(xùn)練后的作文文本語料映射到潛在語義空間中,映射的方式為以下方式其中之一 1、潛在語義分析中以全文為文檔單元的方式;或2、基于序列潛在語義分析的以小于全文為文檔單元的方式;步驟Blc 對同主題作文文本語料映射得到的潛在語義向量與對應(yīng)的人工文本打分進(jìn)行支持向量回歸分析,得到主題內(nèi)容模型;步驟Bid:用此主題內(nèi)容模型對作文文本語料進(jìn)行主題內(nèi)容模型特征的提取,得到主題內(nèi)容特征。
5.根據(jù)權(quán)利要求4所述的漢語作文自動測試方法,其特征在于,所述步驟Blb中采用映射方式2將同主題作文文本語料映射到潛在語義空間包括Blbl 將單篇的作文文本語料文本切分為η份,每一份分別映射到潛在語義空間中; Blb2 將得到的映射向量進(jìn)行原順序的重組合,得到此篇作文文本保留序列信息的潛在語義向量。
6.根據(jù)權(quán)利要求4所述的漢語作文自動測試方法,其特征在于,所述步驟Blc中對得到的潛在語義向量與對應(yīng)的作文文本語料的人工評分進(jìn)行支持向量回歸分析,得到主題內(nèi)容模型,包括Blcl 支持向量回歸分析的核函數(shù)選用徑向基核函數(shù),對訓(xùn)練語料進(jìn)行交叉驗證實驗, 得到最優(yōu)的支持向量回歸分析參數(shù);Blc2 將所得參數(shù)用于主題內(nèi)容模型中。
7.根據(jù)權(quán)利要求2所述的漢語作文自動測試方法,其特征在于,所述步驟B和步驟B‘ 中通過所述條理結(jié)構(gòu)模型提取預(yù)處理后的作文文本語料的條理結(jié)構(gòu)特征包括步驟B2a 提取預(yù)處理后的作文文本語料的長度; 步驟B2b 提取預(yù)處理后的作文文本語料的句子數(shù); 步驟B2c 提取預(yù)處理后的作文文本語料的段落數(shù); 步驟B2d 提取預(yù)處理后的作文文本語料的平均句長; 步驟B2e 提取預(yù)處理后的作文文本語料的句長變化度; 步驟B2f 提取預(yù)處理后的作文文本語料的平均段長; 步驟B2e 提取預(yù)處理后的作文文本語料的段長變化度,其中,條理結(jié)構(gòu)特征模型即為基于統(tǒng)計的方法提取以上各種特征的模型,而這些特征也即構(gòu)成了條理結(jié)構(gòu)特征。
8.根據(jù)權(quán)利要求2所述的漢語作文自動測試方法,其特征在于,所述步驟B和步驟B‘ 中通過所述語言表達(dá)特征模型提取預(yù)處理后的作文文本語料的語言表達(dá)特征中,所述語言表達(dá)特征模型包括以下兩個模型B3,基于淺表統(tǒng)計的語言表達(dá)特征模型;和B3',基于詞匯評分的語言表達(dá)特征模型。
9.依據(jù)權(quán)利要求8所述的漢語作文自動測試方法,其特征在于,所述步驟B和步驟B‘ 中通過基于淺表統(tǒng)計的語言表達(dá)特征模型提取預(yù)處理后的作文文本語料的語言表達(dá)特征包括步驟B3a:對預(yù)處理后的作文文本訓(xùn)練語料進(jìn)行用詞詞匯豐富度的統(tǒng)計,所述詞匯豐富度是指單篇作文中采用的不同詞匯數(shù)目;步驟B3b 對預(yù)處理后的作文文本訓(xùn)練語料統(tǒng)計其中各類詞性所包含的詞匯的數(shù)目、 統(tǒng)計詞匯中各類詞性所包含的不同詞匯的數(shù)目;步驟B3c 在所述作文文本訓(xùn)練語料中采用交叉驗證的方式,計算以上所得特征與人工評分相關(guān)度,保留相關(guān)度較大的特征,作為當(dāng)前模型所提取的特征,其中,所述基于淺表統(tǒng)計的語言表達(dá)特征模型即為通過特征選擇方法統(tǒng)計和選擇以上所述各個特征的模型,而最終選取的特征即為此模型所提取的語言表達(dá)特征。
10.依據(jù)權(quán)利要求8所述的漢語作文自動測試方法,其特征在于,所述步驟B和步驟 B'中通過所述基于詞匯評分的語言表達(dá)特征模型提取所述預(yù)處理后的作文文本語料的語言表達(dá)特征包括步驟B3' a 通過人工評分的訓(xùn)練語料估計每個詞匯的評分,得到基于詞匯評分的語言表達(dá)特征模型;步驟B3' b 通過每個詞匯的估計評分,對待評作文的每個詞匯評分進(jìn)行線性加權(quán),得到基于詞匯評分的語言表達(dá)特征。
11.依據(jù)權(quán)利要2所述的漢語作文自動測試方法,其特征在于,所述步驟C'包括依據(jù)對作文文本訓(xùn)練語料所提取的特征和其人工評分進(jìn)行最小二乘法的線性擬合,得到對于主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達(dá)特征的評分方程。
12.依據(jù)權(quán)利要求2中所述的漢語作文自動測試方法,其特征在于,所述步驟A'和所述步驟A中的作文文本訓(xùn)練語料和作文文本待評語料均為同一主題語料。
13.—種漢語作文自動測試系統(tǒng),其特征在于,包括 預(yù)處理裝置,用于對輸入的作文文本待評語料進(jìn)行預(yù)處理;特征提取裝置,用于通過預(yù)設(shè)的主題內(nèi)容模型、條理結(jié)構(gòu)模型和語言表達(dá)特征模型對預(yù)處理后的作文文本待評語料進(jìn)行主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達(dá)特征提取,所述主題內(nèi)容模型、條理結(jié)構(gòu)模型、語言表達(dá)特征模型為根據(jù)預(yù)處理后的作文文本訓(xùn)練語料建立的;自動評分裝置,用于對所提取的特征用預(yù)設(shè)的評分方程進(jìn)行計算,獲得所述漢語作文的自動評分結(jié)果,所述評分方程為依據(jù)對作文文本訓(xùn)練語料所提取的特征和其人工評分進(jìn)行評分的線性擬合獲取的。
14.根據(jù)權(quán)利要求13所述的漢語作文自動測試系統(tǒng),其特征在于, 所述特征提取裝置與所述輸入裝置相連接;所述自動評分裝置與所述特征提取裝置相連接。
15.根據(jù)權(quán)利要求13所述的漢語作文自動測試系統(tǒng),其特征在于,所述特征提取裝置包括潛在語義分析空間訓(xùn)練模塊,用于對預(yù)處理后作文文本語料進(jìn)行潛在語義分析空間訓(xùn)練;映射模塊,用于將潛在語義分析空間訓(xùn)練后的作文文本語料映射到潛在語義空間中, 映射的方式為以下方式其中之一 1、潛在語義分析中以全文為文檔單元的方式;或2、基于序列潛在語義分析的以小于全文為文檔單元的方式;主題內(nèi)容模型模塊,用于對同主題作文文本語料映射得到的潛在語義向量與對應(yīng)的人工文本打分進(jìn)行支持向量回歸分析,得到主題內(nèi)容模型;主題內(nèi)容特征提取模塊,用于用所述主題內(nèi)容模型對作文文本語料進(jìn)行主題內(nèi)容模型特征的提取,得到主題內(nèi)容特征。
16.根據(jù)權(quán)利要求13所述的漢語作文自動測試系統(tǒng),其特征在于,所述特征提取裝置還包括長度特征提取模塊,用于提取預(yù)處理后的作文文本語料的長度; 句子書特征提取模塊,用于提取預(yù)處理后的作文文本語料的句子數(shù); 段落數(shù)特征提取模塊,用于提取預(yù)處理后的作文文本語料的段落數(shù); 平均句長特征提取模塊,用于提取預(yù)處理后的作文文本語料的平均句長; 句長變化度特征提取模塊,用于提取預(yù)處理后的作文文本語料的句長變化度; 平均段長特征提取模塊,用于提取預(yù)處理后的作文文本語料的平均段長; 段長變化度特征提取模塊,用于提取預(yù)處理后的作文文本語料的段長變化度, 其中,條理結(jié)構(gòu)特征模型即為基于統(tǒng)計的方法提取以上各種特征的模型,而這些特征也即構(gòu)成了條理結(jié)構(gòu)特征。
17.根據(jù)權(quán)利要求13所述的漢語作文自動測試系統(tǒng),其特征在于,所述特征提取裝置中,所述語言表達(dá)特征模型包括以下兩個模型基于淺表統(tǒng)計的語言表達(dá)特征模型;和基于詞匯評分的語言表達(dá)特征模型。
全文摘要
本發(fā)明公開了一種漢語作文自動測試方法及系統(tǒng)。該方法包括步驟A輸入作文文本待評語料,對作文文本待評語料進(jìn)行預(yù)處理;步驟B通過主題內(nèi)容模型、條理結(jié)構(gòu)模型和語言表達(dá)特征模型對預(yù)處理后的作文文本待評語料提取主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達(dá)特征;步驟C對所提取的主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達(dá)特征用評分方程進(jìn)行計算,獲得漢語作文的自動評分結(jié)果。本發(fā)明減少大規(guī)模漢語作文水平測試中的人力物力投入,并實現(xiàn)了評分的客觀化。
文檔編號G06F17/30GK102279844SQ20111025585
公開日2011年12月14日 申請日期2011年8月31日 優(yōu)先權(quán)日2011年8月31日
發(fā)明者彭星源, 徐波, 柯登峰, 王士進(jìn), 陳振標(biāo) 申請人:中國科學(xué)院自動化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
乐业县| 永德县| 越西县| 天峨县| 广饶县| 江源县| 呈贡县| 揭阳市| 新密市| 崇文区| 嘉黎县| 绍兴市| 五常市| 屯昌县| 海伦市| 汉源县| 晋中市| 遂平县| 潞城市| 洛阳市| 师宗县| 阳城县| 肥城市| 兰州市| 台南县| 于田县| 义马市| 吉隆县| 镇安县| 图片| 镇江市| 平阳县| 寿宁县| 广州市| 浦县| 荥经县| 东光县| 叶城县| 个旧市| 阳东县| 新密市|