本說明書一個或多個實施例涉及信息處理技術領域,尤其涉及一種科技成果數據挖掘方法及裝置。
背景技術:
隨著科技發展戰略的推進,取得了大批的科技成果,對科技成果進行科學正確的評價,將具有創新性的科技成果進行轉移轉換,能夠推動進一步激勵創新,推進科技進步,推動經濟進步。科技成果信息中包含有大量的重要數據,對科技成果信息進行數據挖掘是對科技成果進行評價的必要步驟。
技術實現要素:
有鑒于此,本說明書一個或多個實施例的目的在于提出一種科技成果數據挖掘方法及裝置,能夠從科技成果信息中挖掘出用于科技成果評價的重要數據。
基于上述目的,本說明書一個或多個實施例提供了一種科技成果數據挖掘方法,包括:
獲取科技成果信息;
從所述科技成果信息中提取關鍵詞;
根據通用詞庫、專用詞庫、所述關鍵詞及關鍵詞之間的關聯關系,構建關鍵詞網絡;
根據所述關鍵詞網絡對所述科技成果信息進行數據挖掘與分析,得到用于科技成果評價的重要數據。
可選的,所述通用詞庫包括項目庫、獲獎成果庫、專利庫、專家庫以及通過接口訪問的外購科技文獻庫;所述專用詞庫是從互聯網上爬取的網頁數據。
可選的,對于從所述通用詞庫和所述專用詞庫獲取的不同結構、不同類型、不同性質的數據,進行數據抽取、數據清洗、數據轉換處理,得到數據處理后的詞庫;根據所述詞庫中的詞語和所述關鍵詞及關鍵詞之間的關聯關系,構建所述關鍵詞網絡。
可選的,對所述科技成果信息進行數據挖掘處理,包括:利用etl工具對關鍵詞網絡中的數據進行處理,得到工具分析后的數據。
可選的,對工具分析后的數據進行數據挖掘數據挖掘方法有哪些,包括數據分類、數據聚類、按照特定的規則進行數據關聯,得到挖掘后的數據。
可選的,對工具分析后的數據進行社會網絡挖掘,包括社團發現、社團演化、計算圖特征值及演化評估,得到社會網絡挖掘后的數據。
可選的,對挖掘后的數據進行文本挖掘處理,包括對數據進行分類聚類、卡方檢驗、文本向量化等處理。
本實施例還提供一種科技成果數據挖掘裝置,包括:
獲取模塊,用于獲取科技成果信息;
提取模塊,用于從所述科技成果信息中提取關鍵詞;
構建模塊,用于根據通用詞庫、專用詞庫、所述關鍵詞及關鍵詞之間的關聯關系,構建關鍵詞網絡;
挖掘模塊,用于根據所述關鍵詞網絡對所述科技成果信息進行數據挖掘與分析,得到用于科技成果評價的重要數據。
可選的,所述通用詞庫包括項目庫、獲獎成果庫、專利庫、專家庫以及通過接口訪問的外購科技文獻庫;所述專用詞庫是從互聯網上爬取的網頁數據。
可選的,對于從所述通用詞庫和所述專用詞庫獲取的不同結構、不同類型、不同性質的數據,進行數據抽取、數據清洗、數據轉換處理,得到數據處理后的詞庫;根據所述詞庫中的詞語和所述關鍵詞及關鍵詞之間的關聯關系,構建所述關鍵詞網絡。
從上面所述可以看出,本說明書一個或多個實施例提供的科技成果數據挖掘方法及裝置,通過獲取科技成果信息,從科技成果信息中提取關鍵詞,根據通用詞庫、專用詞庫、關鍵詞及關鍵詞之間的關聯關系數據挖掘方法有哪些,構建關鍵詞網絡,根據關鍵詞網絡對科技成果信息進行數據挖掘與分析,得到用于科技成果評價的重要數據。本實施例的方法及裝置,能夠從科技成果信息中挖掘出重要數據,用于科技成果評價。
附圖說明
為了更清楚地說明本說明書一個或多個實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本說明書一個或多個實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本說明書一個或多個實施例的方法流程示意圖;
圖2為本說明書一個或多個實施例的裝置結構示意圖。
具體實施方式
為使本公開的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照附圖,對本公開進一步詳細說明。
需要說明的是,除非另外定義,本說明書一個或多個實施例使用的技術術語或者科學術語應當為本公開所屬領域內具有一般技能的人士所理解的通常意義。本說明書一個或多個實施例中使用的“第一”、“第二”以及類似的詞語并不表示任何順序、數量或者重要性,而只是用來區分不同的組成部分。“包括”或者“包含”等類似的詞語意指出現該詞前面的元件或者物件涵蓋出現在該詞后面列舉的元件或者物件及其等同,而不排除其他元件或者物件。“連接”或者“相連”等類似的詞語并非限定于物理的或者機械的連接,而是可以包括電性的連接,不管是直接的還是間接的。“上”、“下”、“左”、“右”等僅用于表示相對位置關系,當被描述對象的絕對位置改變后,則該相對位置關系也可能相應地改變。
本說明書一個或多個實施例提供一種科技成果數據挖掘方法,包括:
s101:獲取科技成果信息;
s102:從科技成果信息中提取關鍵詞;
s103:根據通用詞庫、專用詞庫、關鍵詞及關鍵詞之間的關聯關系,構建關鍵詞網絡;
s104:根據關鍵詞網絡對科技成果信息進行數據挖掘與分析,得到用于科技成果評價的重要數據。
一些實施例中,通用詞庫包括項目庫、獲獎成果庫、專利庫、專家庫以及通過接口訪問的外購科技文獻庫等,專用詞庫是從互聯網上爬取的網頁數據。對于從通用詞庫和專用詞庫獲取的不同結構、不同類型、不同性質的數據,需要進行數據抽取、數據清洗、數據轉換等處理,得到數據處理后的詞庫。之后,根據詞庫中的詞語和關鍵詞及關鍵詞之間的關聯關系,構建關鍵詞網絡。
對科技成果信息進行數據挖掘處理,包括:利用etl工具對關鍵詞網絡中的數據進行數據清晰、數據抽樣、數據集成及數據轉換處理,得到工具分析后的數據。
對工具分析后的數據進行數據挖掘,包括數據分類、數據聚類、按照特定的規則進行數據關聯,得到挖掘后的數據。
對工具分析后的數據進行社會網絡挖掘,包括社團發現、社團演化、計算圖特征值及演化評估,得到社會網絡挖掘后的數據。
對挖掘后的數據進行文本挖掘處理,包括對數據進行分類聚類、卡方檢驗、文本向量化等處理。
在科技成果培育的全過程管理中,重大科技成果往往呈現一定的特征和規律。這些特征和規律,可以看作是科研活動的發展演化在時空歷史信息中表現出來的一致性或連續性,并可能隨著時間或空間進行發展變化。重大科技成果的出現通常意味著科研進展的異常趨勢或特征,即科研活動和興趣點的異常變化。在本項目中,數據挖掘技術主要針對大量科技項目的題目、摘要、關鍵詞、參與人員等內容分析其所屬類別和多維屬性,從統計分析、機器學習等方面入手,研究設計合理的數學模型來刻畫科研活動和科技成果培育的特征和規律。一些方式中,采用融合分簇的方法將具有多模態特征的科技成果數據進行關聯融合,研究科研活動和科技成果培育在不同時空尺度下的集聚程度,通過對數據進行聚類處理和關聯規則分析等無監督學習手段,提取其特征,進而劃分出呈現某些相似性的活動,并分析這些數據的關聯特征和規律,同時利用分類和聚類等算法,對基于復雜網絡構建的專家知識庫中的信息進行再處理,分析專家信息與項目信息的關聯度,進而建立準確的專家項目關聯集合。
一些實施例中,對已有的歷史科技成果數據利用數據挖掘算法進行數據挖掘,尋找科技成果中隱含的數據關聯性,為上層應用數據分析提供分析工具。其中,數據挖掘算法包括分類決策樹算法(c45決策樹、pcart決策樹、決策樹)、k-近鄰、樸素貝葉斯、神經網絡、lr邏輯回歸;聚類算法:k-均值、、clara;關聯規則:、、、時序關聯等算法。
本說明書實施例還提供一種科技成果數據挖掘裝置,包括:
獲取模塊,用于獲取科技成果信息;
提取模塊,用于從科技成果信息中提取關鍵詞;
構建模塊,用于根據通用詞庫、專用詞庫、關鍵詞及關鍵詞之間的關聯關系,構建關鍵詞網絡;
挖掘模塊,用于根據關鍵詞網絡對科技成果信息進行數據挖掘與分析,得到用于科技成果評價的重要數據。
所屬領域的普通技術人員應當理解:以上任何實施例的討論僅為示例性的,并非旨在暗示本公開的范圍(包括權利要求)被限于這些例子;在本公開的思路下,以上實施例或者不同實施例中的技術特征之間也可以進行組合,步驟可以以任意順序實現,并存在如上所述的本說明書一個或多個實施例的不同方面的許多其它變化,為了簡明它們沒有在細節中提供。
另外,為簡化說明和討論,并且為了不會使本說明書一個或多個實施例難以理解,在所提供的附圖中可以示出或可以不示出與集成電路(ic)芯片和其它部件的公知的電源/接地連接。此外,可以以框圖的形式示出裝置,以便避免使本說明書一個或多個實施例難以理解,并且這也考慮了以下事實,即關于這些框圖裝置的實施方式的細節是高度取決于將要實施本說明書一個或多個實施例的平臺的(即,這些細節應當完全處于本領域技術人員的理解范圍內)。在闡述了具體細節(例如,電路)以描述本公開的示例性實施例的情況下,對本領域技術人員來說顯而易見的是,可以在沒有這些具體細節的情況下或者這些具體細節有變化的情況下實施本說明書一個或多個實施例。因此,這些描述應被認為是說明性的而不是限制性的。
盡管已經結合了本公開的具體實施例對本公開進行了描述,但是根據前面的描述,這些實施例的很多替換、修改和變型對本領域普通技術人員來說將是顯而易見的。例如,其它存儲器架構(例如,動態ram(dram))可以使用所討論的實施例。
本說明書一個或多個實施例旨在涵蓋落入所附權利要求的寬泛范圍之內的所有這樣的替換、修改和變型。因此,凡在本說明書一個或多個實施例的精神和原則之內,所做的任何省略、修改、等同替換、改進等,均應包含在本公開的保護范圍之內。