如何构建知识图谱,知识图谱构建
构建知识图谱需要掌握一些工具,比如爬虫、neo4j等等,掌握了工具,构建知识图并不困难,难在大数据源。一类是开放域的知识图谱,另一类是垂直领域的知识图谱。目前的知识图谱分为两类。这些都是知识图谱的构成。数据是阻碍构建图谱的最大绊脚石,只要有了数据,利用neo4j或其他一些工具就能比较简单的构建出图谱。
知识图谱是什么?
在人工智能时代,大家都在讨论机器学习、深度学习等技术,但如果你持续关注人工智能,你会发现知识图谱这个概念也在被越来越多的人重拾。而知识图谱也确实是人工智能发展到一定广度之后,向深度发展的重要依托工具。传统的搜索方式是基于关键词,给出密密麻麻的网址排序,这种搜索方式并没有真正理解我们的搜索意图。而结合了知识图谱的搜索方式,其关键点在于“知识”,它集合于互联网上的知识于一身,试图去了解世界的真实含义,从信息检索的层次转变为知识积累,因此知识图谱建立认知的过程被看成是最能体现人工智能的方式之一,很像我们人类大脑学习思考的过程,即由点及线,由线到面,一步步理清知识之间的逻辑。
以百度这个全球最大的中文知识图谱为力,其优点可以简单总结出以下三点:1)提供了一种新的搜索方式。例如我们在搜索“地球质量”的时候,百度内涵的知识图谱直接就显示给我们答案,而不是以往那些隔靴搔痒的网页。2)以实体为中心建立丰富的联系。例如我们搜索“杨幂”,既能直接返回给我们杨幂个人信息,也能在右侧推荐出跟杨幂相关的其他实体,并能显示出实体与实体之间建立联系的逻辑,即下图中的推荐实体下方的推荐理由。
1)能够依据知识之间的逻辑进行简单的推理,简单的举例如下图所示。基于逻辑的人工智能是AI的经典想法,就是因为我们发现世界上的知识无法用逻辑真理描述,而且存在很多自相矛盾的情况,后来机器学习(Learning from Data)成了AI的主流,到了今天,我们发现机器学习也有一定的瓶颈,尤其是在问题三的逻辑推理。
如何构建知识图谱?
目前的知识图谱分为两类。一类是开放域的知识图谱,另一类是垂直领域的知识图谱。首先就是要先处理数据互联网上的数据基本上都是结构化的,非结构化的和半结构化的。结构数据一般就是公司的业务数据。这些数据都存储到数据库里,从库里面抽取出来做一些简单的预处理就可以拿来使用。半结构化数据和非结构化数据,比如对商品的描述,或是标题,可能是一段文本或是一张图片,这就是一些非结构化数据了。
但它里面是存储了一些信息的,反映到的是知识图谱里的一些属性。所以需要对它里面进行一个抽取,这是构建知识图谱中比较费时费力的一个工作。从数据里需要抽取的其实就是之前所提到的实体、属性、关系这些信息。对于实体的提取就是NLP里面的命名实体识别。这里相关的技术都比较成熟了,从之前传统的人工词典规则的方法,到现在机器学习的方法,还有深度学习的一些使用另外还需要做的是实体对齐和实体消歧。
关于实体对齐。举例来说,比尔盖茨这四个字是中文名称,Bill Gates是他的英文名称,但其实这两个指的是同一个人。由于文本的不一样,开始的时候导致这是两个实体。这就需要我们对它进行实体对齐,把它统一化。另外是实体消歧。举例来说,苹果是一种水果,但是在某些上下文里面,它可能指的是苹果公司。这就是一个实体歧义,我们需要根据上下文对它进行实体消歧。
其次,在完成了以上步骤之后,接下来就是本体抽取。比如说公司是一个机构,它是有这种上下流的关系的。对于平级的也需要计算一个他们的相识度,比如比尔盖茨和乔布斯在实体层面,他们是比较相似的。他们都属于人这个实体。他们跟公司的差别还是挺大的,所以需要一个相似度的计算。在以上步骤完成之后需要对知识库进行质量评估。
如何构建健康知识图谱?
可将医学知识图谱构建技术归纳为五部分,即医疗知识的表示、抽取、融合、推理以及质量评估。通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素,选择合理高效的方式存入知识库。1)医学知识表示。知识表示是为描述世界所做的一组约定,是知识符号化、 形式化、模式化的过程,主要研究计算机存储知识的方法, 其表示方式影响系统的知识获取、存储及运用的效率。
在医疗领域,实体维度包括疾病、症状、检查、检验、体征、药品等等医学名词,甚至医生、科室、医院也可以纳入范畴。关系是指实体间的关系,比如,针对疾病和症状,关系可有“包含关系”,“不包含关系”,甚至“金标准关系”(比如,所有炎症都会带来发热,这就是金标准)。疾病和医生可以定义“医生擅长治疗疾病”,医生和医院可以定义“归属于关系”等等。
这些都是知识图谱的构成。2)医学知识融合。在医疗领域,Dieng-Kuntz 等人将医疗数据库转换为医疗本体,然后对其他文本语料使用半自动的语言工具进行语义提取,在人工控制下对本体进行扩展和补全,并用启发式规则自动建立知识的概念层次。Baorto 等人将数据源添加到临床信息系统时先确定数据的控制术语是否已经存在,然后将新术语添加到 MED( Medical Entities Dictionary),同时建立审计流程以保证引入数据的一致性。
3)医学知识推理。医学知识图谱必须处理大量重复矛盾的信息,这就增加了构建医学推理模型的复杂性。 传统的知识推理方法有基于描述逻辑(Description Logic, DL)推理,基于规则推理(Rule-based Reasoning,CBR)与基于案例推理(Case-based Reasoning,CBR)等等。
Bousquet C 等人使用基于 DAML OIL 描述逻辑执行术语推理来改进药 物警戒系统中信号检测;Chen R 等人采用 RBR 方法开发出糖尿病诊断系统以提供用药建议;CARE-PARNER 系统则是基于CBR给出诊断结果与治疗方案等等。4)质量评估。医学领域,本体评估方法因应用场景而异:Clarke 等人使用基于任务评估方法来分析基因本体的从 2004 至 2012 年的性能;Bright 等使用本体设计原则和领域专家审查意见 作为指标来评估本体在抗生素决策支持系统中的效果;Gordon 等通过将电子病历,诊断案例和临床实践等来构造“黄金标准”来评估,改进传染疾病本体 BCIDO等。
为方便用户进行本体评估和加快本体评估自动化进程,本体评估工具封装了评估方法。不同的工具从不同的视角对本体的不同指标进行评估。针对评估的侧重点,选择合适的工具才能对本体作出 符合应用要求的评估。 比较常用的本体评估工具有:ODEval,OOPS,OntoManager,Core等。除了医学本体,医学知识图谱还涵盖其他复杂多样的信息,因此,质量评估还包括对数据质量, 专家信息,知识库等方面进行评估。
中文知识图谱的构建思路是什么?
首先,你需要收集数据,一般来说,知识图谱都用在相对应的领域内,比如说医疗知识图。数据是阻碍构建图谱的最大绊脚石,只要有了数据,利用neo4j或其他一些工具就能比较简单的构建出图谱。数据一般有两种获取方式,如果你是研究人员,在你的研究领域内对应的结构化大数据就是主要的数据来源;如果只是兴趣,找到你想要构建的图谱的领域的相关网站,利用爬虫工具对数据进行爬取,清洗,整理成比较干净的数据形式,可以存放在关系数据库、.csv、.txt等文件中,再利用图数据库工具建立知识图谱。
区块链技术如何打破知识图谱构建的瓶颈问题?
数据的严重缺乏,是目前人工智能领域发展面临的最大的障碍。区块链用技术作为支撑为知识图谱的搭建提供了一种全新的商业化路径,将知识图谱的搭建任务泛化到更多更广泛的人群,从而弥补阻碍人工智能发展的“最后一块短板”。常识获取虽然已成为当前知识库构建面临的瓶颈问题,但也不是真的一点办法也没有。只是常识体系知识数量的浩大、构建所需的知识粒度之小、工作量之繁杂和琐屑,决定了任何单个中心化的机构都是很难完成的。
然而区块链技术的诞生为这个瓶颈问题的突破带来了曙光,区块链技术的去中心化、开放性、透明性、激励机制等基本特征为我们提供了一套全新的、可实现的数据搭建方案。区块链不依赖于中心的管理节点,能够实现数据的分布式记录、存储和更新。去中心化,意味着多中心化;分布式记账,就是多节点。既然单个中心化的机构无法完成全工程量浩大又琐屑的知识图谱的搭建,那么鼓励更多人群、特别是那些具有专业领域知识的人共同来参与知识图谱的搭建,这个任务是不是就容易多了?去中心化就意味着,任何节点都可以实现数据的贡献、存储和更新;同时任何节点也都可以被替代。
这是中心化机制无法实现的。既然分布式多节点的共同搭建,那么贡献度追溯以及版权保护的问题对于知识贡献者来讲就非常重要了。这个问题解决不好,非常容易引发生态内的不良激励。透明性解决的就是信任、以及可追溯这样一个基础问题。区块链内产生的每一笔交易都是透明、可查询的。并且所记录的数据不可逆,也不可篡改。每笔交易都可以层层追溯到源头,从而判断交易是否合规,也就解决了版权经过多层转让后归属不清的问题。
从事知识图谱构建研究领域有哪些经验值得分享?
构建知识图谱是一个和数据打交道的过程,无论是有现成的结构化数据,还是爬取网页上的非结构化数据。知识图谱本质就是个图数据库,与传统关系数据库相比,可以让我们更直观的“看到”数据之间的关联,因此,和构建关系数据库道理大同小异。如果你对数据不感兴趣,就会感到比较枯燥。构建知识图谱需要掌握一些工具,比如爬虫、neo4j等等,掌握了工具,构建知识图并不困难,难在大数据源。
本文地址:http://www.ym.55jiaoyu.com/show-736935.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦
热门文档
推荐文档
- 11.2025卫校需要多少分可以上报考卫校需满足哪些条件
- 12.高考200多分能上什么学校推荐哪些院校
- 13.体育生高考分数怎么算计算公式是什么
- 14.2023高考400分到500分的医药类二本大学哪些院校值得去
- 15.石家庄学院学费
- 16.高考需要带的东西清单
- 17.北京大学2022年录取分数线高考多少分可以上
- 18.2023全国收分最低的公办二本大学有哪些
- 19.weekends用at还是on
- 20.初中毕业如何考大专
- 21.山东省高中排名100强
- 22.永州中考总分
- 23.指导性计划招生是什么意思
- 24.体育成绩查询
- 25.青岛商务学校怎么样、好不好
- 26.中考志愿填报入口
- 27.2022中考分数查询
- 28.数轴实心点和空心点
- 29.哈尔滨中考市重点高中统招2022录取分数线(2023参考)
- 30.合江中学文前分校2021年宿舍条件
- 31.江苏省郑集高级中学怎么样、好不好
- 32.宁波技师学院地址,乘车路线
- 33.广东省外语艺术职业学院2021年招生简章
- 34.广州民航职业技术学院2021年招生办联系电话
- 35.河南工业设计学校_郑州招生网
- 36.四川什邡七一中学网站网址
- 37.湖南农业大学_长沙招生网
- 38.哈尔滨职业技术学院_哈尔滨招生网
- 39.陕西最好五个二本大学,2025陕西二本院校完整名单一览
- 40.2025瑞安职业中等专业学校开设的专业一览表
- 41.2025年宁波中学最新排行榜
- 42.四川开江中学2021年招生录取分数线
- 43.苏州托普信息职业技术学院开设哪些专业,苏州托普信息
- 44.河北唐山开滦二中中考录取分数线(2022)-2023年参考
- 45.邦博尔兰州招生网_兰州招生信息_兰州招生考试平台
- 46.2025江苏省如皋第一中等专业学校开设的专业一览表
- 47.2025烟台中职学校有哪些烟台中职学校名单一览表
- 48.商洛职业技术学院网站网址
- 49.2025深圳各区重点高中学校名单及排名表
- 50.德阳科贸职业学院中职部软件技术专业专业介绍
- 51.沈阳所有的本科专科大学名单(2025)
- 52.2025中国艺术类大学排名(校友会版)
- 53.湖州市第二中学_湖州招生网
- 54.重庆高中学校升学排行2022(附高考成绩)-2023参考
- 55.武汉江南技术学校2025年宿舍条件
- 56.河北传媒学院是几本?是985和211吗?
- 57.2025怀仁县第一高级职业中学招生计划招生人数是多少
- 58.2025重庆工商大学派斯学院评价怎么样,学校好不好
- 59.池州职业技术学院网站网址
- 60.2025哈尔滨工程大学专业排名一览表
- 51.黑龙江省人才中心,黑龙江人才市场
- 52.华为服务器,华为云服务器的稳定性优势怎样
- 53.得码app虚拟手机号码,虚拟手机验证码短信平台
- 54.洪湖东分块移民到哪里,荆州洪湖东分块蓄洪工程建设探访
- 55.小米6的基带版本图,还要拔掉小米6钉子户
- 56.荣耀猎人游戏本v700(荣耀猎人游戏本v700怎么样)
- 57.千元智能手机排行榜,求千元手机排行榜,有哪些比较推荐?
- 58.华为d15屏幕多大(华为d15尺寸)
- 59.S21系列明日首销,三星s21上市时间预测及价格
- 60.怎么查询学校有没有招标信息平台,哪个网站查招标信息比较好用
- 61.七星河在哪里,武当东神道七星河
- 62.郯城古梅园多少钱,新村银杏古梅园
- 63.土地确权影像怎么打开,农村土地确权怎么分
- 64.政府招标在哪里,招投标信息一般在哪里获取
- 65.庆阳工程用品哪里卖,中国化学工程集团有限公司
- 66.李华宇名字怎么样,巴达维亚华人甲必丹制度起源考
- 67.在乡镇怎么开牛栏山专卖,二锅头VS牛栏山
- 68.鹿寨导江乡有什么快递,导江乡提升四大基地建设
- 69.盛晓敏哪里人,国盛智科获32家机构调研
- 70.承招代理是什么意思,保理是什么东东

