business_knowledge graph drug
陶恒franz
2022-11-13
中心主题
主题
主题
主题
当前的问题
已经标注多少数据
什么问题
主题
竞品
中文医学知识图谱
HiTA知识图谱
学者
https://www.researchgate.net/profile/Shuangjia-Zheng
https://github.com/prokia?tab=repositories
Shuangjia-Zheng
https://github.com/caufieldjh?tab=repositories
https://github.com/AspirinCode
paper
KGNN: Knowledge Graph Neural Network for Drug-Drug Interaction Prediction
Drug Repurposing Knowledge Graph (DRKG)
PharmKG
Recent advances in biomedical literature mining
生物医学文献
特征
(1)可获得性 :可从公开可用的数据库 MEDLINE 和免费搜索引擎 PubMed 中获
得;
(2) 专业性 :往往使用专业术语;
(3) 多样性 :相同的概念有多种不同的表达方式;
(4) 长度 :新的生物医学知识的内容可能会很长,而且不尽相同。
生物医学命名实体识别与归一化(BioNER,BioNEN)
生物医学文本分类
生物医学关系提取(RE)
路径提取
假设生成
任务
BioNER 的目标是从文本中找到提到生物医学实体的界限
BioNEN 的目标是将获得的生物医学命名实体映射到受控词汇表中
挑战
(1)同一实体的大量 同义词 和 替代表达 导致了词汇量的爆炸性增长;
(2)许多实体涉及长序列标记 ,使得准确检测边界变得更加困难;
(3)实体的非标准化缩写 和 一词多义 或歧义
BioNER
嵌套实体在生物医学文本中很常见,其中不同的生物实体由彼此组成,然而目前的
BioNER 研究通常只关注最外层的实体。
BioNEN
句法变化,其中所识别的实体与其在参考集中存在的规范形式包含相对较小的字符差
异,例如不同的大小写、单词的重新排序、打字错误或错误(例如:FOXP2 和 FOX-
P2)
同一生物医学术语的不同形式,如同义词和缩略语
语义变异,即使在采用外部知识库来获得生物医学实体的同义词时,识别的实体也不
存在于参考集中
相关主题识别
生物医学文献索引
挑战
(1)标签空间很大 :有超过 29000 个网格术语用于索引生物医学文章,使得在如
此大的空间中进行高效的多标签学习变得困难;
(2) 标签之间的关系比较复杂 ;
(3) 标签存在偏差 :真实标签在训练数据集上很难精确,可能会影响学习的分类
器的质量,创建准确而公正的训练数据集是一个挑战。
挑战
(1)生物医学实体的非标准表达变体;
(2)一般的 RE 模型通常从文本中提取二元关系,但医学文献中涉及的关系可以是
一元、二元或 N 元关系,其中多个实体包含在单个关系中;
(3)由于生物医学关系对领域专业知识的要求,缺少标注良好的生物医学关系,使
得充分训练复杂的深度学习模型具有挑战性;
(4)生物医学领域不断有新发现出现,开发识别新的看不见的关系的模型具有挑战
性。
挑战
(1)生物医学文献具有多样且复杂的表达方式,使得很难准确地提取通路;
(2)提取结果的低准确性阻碍了系统的进一步利用;
(3)缺少一些必要的上下文信息,例如交互条件;
(4)不断变化的需求使得系统很难迅速适应;
(5)科学出版物中的许多单句往往涉及多个生物医学实体。
挑战
(1)基于 ABC 共现等方法的假设过于简单,无法捕捉到生物医学过程的复杂性;
(2)许多现有的 LBD 方法和系统开发的目的都是研究目的,而缺乏在实际环境中的
应用,例如基础科学研究、制药研究和开发以及临床护理等;
(3)生物医学文章的内容可能偏向于它们的专业学科,不同文章的发现可能会相互
矛盾,很难获取可靠的假设。
评估
子主题
词库
ICD-10 疾病编码,国际
标准手术编码,药品名称大全,解剖学词库
等, 并从“寻医问药”、“好大夫”等网站上 收集大量的专业术语
医疗NLP
https://mp.weixin.qq.com/s/B-81-IDvkTzD0ma1KCviKw
URL
https://github.com/umbrellabeach/awesome-Biomedical-EntityLinking-papers
数据集
https://mp.weixin.qq.com/s/KKn8Se7d-wTAQl_zXxmtSQ
BIKG
https://www.elsevier.com/solutions/biology-knowledge-graph
https://mp.weixin.qq.com/s/INeiQQTwVTDn8ii8zl4uTg
https://mp.weixin.qq.com/s/UgdDHdF9OPkbsY4xwCUItg
通向大规模医疗知识图谱:万字详解天衍实验室知识图谱对齐技术
http://mp.weixin.qq.com/s?
__biz=MzU2ODU3Mzc4Nw==&mid=2247496313&idx=1&sn=84b7d19cda3b76b2ba7c6f3e45c
ec576&chksm=fc89584dcbfed15b488b44b1c81d693005b9f9616aa73e354f95eb6bce4541
43e5319fa8f0a2&mpshare=1&scene=24&srcid=0217U1LRD7e8pEcaNt3CwJyM&sharer_sh
aretime=1645075295244&sharer_shareid=9385cda0e7daaeeb6dc235708b61a72e#rd
蛋白质及其组学知识图谱
kvplm
https://mp.weixin.qq.com/s/Eu7p-XTDdH3H3y8BmmxTjg
https://mp.weixin.qq.com/s/QszMR0vaRh-Z4B6v6bdxaw
图谱实战 | 华农夏静波:深层语义知识图谱在药物重定位中的应用
Created With
MindMaster