服务简介
客户提供需要研究的疾病或者是方向的一组关键词,公司工程师利用自主研发的程序从海量文献数据库中查找到与之相关的基因或蛋白、miRNA、SNP等信息, 将重要信息提取、归纳并利用相关算法(google page rank等技术)并给出相关性的量化打分, 随后进行功能聚类,生物学通路分析,网络分析等系列分析,最后制作成为可供发表文章使用的图表。
服务项目:
(1)生物医学信息中的实体识别 对基因、蛋白质的研究是生命科学的热点,从生物医学文献中抽取基因、蛋白质名称及其功能,对于进一步发现基因、药物、蛋白质分子间联系和相互作用有着非常重要的意义。 我们利用改进的编辑距离、隐马尔可夫链、条件随机域等方法给出具有较高精度的实体识别算法解决生物医学文献中的实体名命名不规范的情况(变体、缩写和嵌套)等现象。
(2)蛋白质关系网络构建和复合物发现 随着基因组学研究和高通量技术的飞速进步,蛋白质之间的相互作用数据迅速积累,从蛋白质相互作用网络数据中识别出蛋白质复合物,是生物体行为理解、蛋白质功能预测和药物设计的基础。本项目综合利用各种生物医学知识源,采用特征耦合泛化策略构建蛋白质的实体识别模型;使用基于语义的相似度比较解决蛋白质名标准化中的歧义问题;利用平面特征核、卷积树核以及特征耦合泛化核的复合核模型进行蛋白质交互关系抽取,从而构建高准确的蛋白质相互作用网络。在抽取蛋白质复合物的过程中,综合考虑图的拓扑结构、蛋白质复合物的生物结构和蛋白质的功能标注信息,抽取候选蛋白质复合物。为进一步提升复合物识别性能,利用机器学习方法,结合图的拓扑结构信息、关系的可信度和络合物内蛋白质相似程度对候选蛋白质复合物进行过滤,最终得到目标蛋白质复合物。
(3)挖掘基因、蛋白质、疾病和药物之间的相互关系 我们综合各种医学语义资源:MeSH、UMLS以及GO, 利用蛋白质和基因的上下文环境和与概念的关联程度,利用基于扩展的潜在语义索引、基于自组织神经元的聚类方法以及概念关联网络挖掘它们的相互关系。
服务特点:
以MEDLINE的生物医学文献为主要数据源,利用改进的编辑距离和隐马尔可夫链、条件随机域等机器学习方法,完成基因、蛋白质等的实体名字识别,进而挖掘基因、蛋白质、疾病和药物之间的相互关系,以此进行生物医学领域的假设发现,建立具有实用价值的生物医学知识发现系统。