五月婷婷在线观看|国产成人精品3p人妻网站|日本老熟妇maturebbw|日韩 欧美 综合

新聞資訊

醫護對講品牌系統 python neo4j 醫療問答 huanyong_醫療知識圖譜問答系統探究(

2023-10-18 12:14

這是 阿拉燈神丁Vicky 的第 23 篇文章

1、項目背景

為通過項目實戰增加對知識圖譜的認識,幾乎找了所有網上的開源項目及視頻實戰教程。

果然,功夫不負有心人,找到了中科院軟件所劉煥勇老師在上的開源項目,基于知識圖譜的醫藥領域問答項目。

用了兩個晚上搭建了兩套,Mac版與版,哈哈,運行成功!!!

從無到有搭建一個以疾病為中心的一定規模醫藥領域知識圖譜,以該知識圖譜完成自動問答與分析服務。該項目立足醫藥領域,以垂直型醫藥網站為數據來源,以疾病為核心,構建起一個包含7類規模為4.4萬的知識實體,11類規模約30萬實體關系的知識圖譜。 本項目將包括以下兩部分的內容:1、基于垂直網站數據的醫藥知識圖譜構建

2、基于醫藥知識圖譜的自動問答

2、項目環境

2.1 系統

搭建中間有很多坑,且行且注意。

配置要求:要求配置neo4j數據庫及相應的依賴包。neo4j數據庫用戶名密碼記住,并修改相應文件。

安裝neo4j,neo4j 依賴java jdk 1.8版本以上:

根據neo4j 安裝時的端口、賬戶、密碼配置設置設置項目配置文件:.py & .py (下載項目時根據個人需要也可使用git)

數據導入: .py,導入的數據較多,估計需要幾個小時。

.py導入數據之前,需要在該文件main函數中加入:.py

啟動問答: .py

2.2 Mac系統

mac本身自帶、java jdk環境,可直接安裝neo4j圖數據庫,項目運行步驟與基本一樣。

問題解答:安裝過程中如遇問題可聯系: -sbb。

2.3 Neo4j數據庫展示

2.4 問答系統運行效果

3、項目介紹

該項目的數據來自垂直類醫療網站尋醫問藥,使用爬蟲腳本.py,以結構化數據為主,構建了以疾病為中心的醫療知識圖譜,實體規模4.4萬,實體關系規模30萬。的設計根據所采集的結構化數據生成醫療問答python,對網頁的結構化數據進行xpath解析。

項目的數據存儲采用Neo4j圖數據庫,問答系統采用了規則匹配方式完成,數據操作采用neo4j聲明的。

項目的不足之處在于疾病的引發原因、預防等以大段文字返回,這塊可引入事件抽取,可將原因結構化表示出來。

3.1 項目目錄

.

├── .md

├── \\編譯結果保存目錄

│ ├── .-36.pyc

│ ├── .-36.pyc

│ └── .-36.pyc

├── .py

├── .pyc

├── .py \\知識圖譜數據入庫腳本

├── .py \\問答程序腳本

├── data

│ └── .json \\本項目的全部數據,通過.py導neo4j

├── dict

│ ├── check.txt \\診斷檢查項目實體庫

│ ├── deny.txt \\否定詞庫

│ ├── .txt \\醫療科目實體庫

│ ├── .txt \\疾病實體庫

│ ├── drug.txt \\藥品實體庫

│ ├── food.txt \\食物實體庫

│ ├── .txt \\在售藥品庫

│ └── .txt \\疾病癥狀實體庫

├──

│ ├── chat1.png \\系統運行問答截圖01

│ ├── chat2.png \\系統運行問答截圖01

│ ├── .png \\知識圖譜構建框架

│ ├── .png \\問答系統框架圖

├── img \\.md中的所用圖片

│ ├── chat1.png

│ ├── chat2.png

│ ├── .png

│ ├── .png

│ └── .png

├──

│ ├── .py \\數據庫操作腳本

│ ├── .py \\網絡資訊采集腳本

│ └── .py \\基于詞典的最大向前/向后腳本

├── .py \\問句類型分類腳本

├── .pyc

├── .py \\問句解析腳本

├── .pyc

3.2 知識圖譜的實體類型

3.3 知識圖譜的實體關系類型

3.4 知識圖譜的屬性類型

3.5 問答項目實現原理

本項目的問答系統完全基于規則匹配實現,通過關鍵詞匹配,對問句進行分類,醫療問題本身屬于封閉域類場景,對領域問題進行窮舉并分類,然后使用的match去匹配查找neo4j,根據返回數據組裝問句回答,最后返回結果。

問句中的關鍵詞匹配:

根據匹配到的關鍵詞分類問句

問句解析

查找相關數據

根據返回的數據組裝回答

3.6 問答系統支持的問答類型

4、項目總結

基于規則的問答系統沒有復雜的算法,一般采用模板匹配的方式尋找匹配度最高的答案,回答結果依賴于問句類型、模板語料庫的覆蓋全面性,面對已知的問題,可以給出合適的答案,對于模板匹配不到的問題或問句類型,經常遇到的有三種回答方式:1、給出一個無厘頭的答案;

2、婉轉的回答不知道,提示用戶換種方式去問;

3、轉移話題,回避問題;

例如,本項目中采用了婉轉的方式回答不知道:

基于知識圖譜的問答系統的主要特征是知識圖譜,系統依賴一個或多個領域的實體,并基于圖譜進行推理或演繹,深度回答用戶的問題,基于知識圖譜的問答系統更擅長回答知識性問題,與基于模板的聊天機器人有所不同的是它更直接、直觀的給用戶答案。對于不能回答、或不知道的問題,一般直接返回失敗,而不是轉移話題避免尷尬。

上一篇:醫院排隊機系統 互聯網醫療行業分析
返回
下一篇:醫院呼叫系統 重慶市加快“互聯網+醫療健康”發展行動計劃(2018—2020年)