1.一種對高校網(wǎng)站上的會議稿進(jìn)行知識抽取的方法,其特征在于,包括以下步驟:
步驟1):采用基于規(guī)則的方式對會議稿進(jìn)行分類;
步驟2):對會議稿進(jìn)行實(shí)體抽??;
步驟3):采用四詞位標(biāo)記法對訓(xùn)練集中的每一個字進(jìn)行標(biāo)注;
步驟4):選擇特征模板;
步驟5):采用基于貝葉斯的實(shí)體條件概率對語料進(jìn)行二次識別。
2.根據(jù)權(quán)利要求1所述的步驟1),其特征在于,所述步驟1)具體為:應(yīng)用正則表達(dá)式將高校會議稿分為兩類,規(guī)則會議稿和非規(guī)則會議稿;符合正則表達(dá)式規(guī)則的,則為規(guī)則會議稿,不符合的就自動歸為非規(guī)則會議稿。
3.根據(jù)權(quán)利要求1所述的步驟2),其特征在于,所述步驟2)中,當(dāng)會議稿為規(guī)則會議稿時,通過基于規(guī)則的方法來進(jìn)行實(shí)體抽取;當(dāng)會議稿為非規(guī)則會議稿時,采用基于統(tǒng)計的方法對非規(guī)則會議稿進(jìn)行實(shí)體抽取。
4.根據(jù)權(quán)利要求3所述的步驟2),其特征在于,所述步驟2)中,當(dāng)會議稿為非規(guī)則會議稿時,采用條件隨機(jī)場模型對非規(guī)則會議稿進(jìn)行實(shí)體抽取。
5.根據(jù)權(quán)利要求1-4所述的步驟3),其特征在于,所述步驟3)中的四詞位標(biāo)記法的特征標(biāo)記如下表所示:
6.根據(jù)權(quán)利要求1-5所述的步驟4),其特征在于,所述特征模板為:
7.根據(jù)權(quán)利要求1-6所述的步驟5),其特征在于,所述步驟5)的基于貝葉斯的實(shí)體條件概率的公式為:
其中,P(wordi)表示字wordi的出現(xiàn)頻率,P(wordi+1|wordi)表示在字wordi的前提下出現(xiàn)字wordi+1的概率,P(name)為查詢串的條件概率。