化学数据库
化学数据库的种类
分子结构的表示
在数字化的化学数据库中,分子结构一般有两种表示方法,包括:
搜索
描述单元
分子的所有性质都可以拆分为具体的物理/化学性质或药学性质,这些性质被称作描述单元。最重要的描述单元当然是化合物名,在这方面,多年来已发展起多种接近标准化的命名方法,从而得以减少含义不清的命名或一物多名现象。其中,IUPAC名是一个很好的选择,不仅对人而言直接可读,从计算机角度也提供了独一无二的字符串。不过,对大分子而言,IUPAC名就显得过分冗长了。至于化合物的俗名,则难免受到数词同音或数词同义的干扰,不适合作为搜索关键词。另一方面,分子的物理/化学描述单元,诸如分子量、(部分)电荷、溶解度等等,几乎可以直接从分子结构计算出来,而药学描述单元则一般能从多元统计分析或实验(药物筛选、生物检定法等)结果中获得。所有这些描述单元都和分子的表达式被储存在一起。
化学相似性
对于化学相似性,并没有统一的定义。不过,仍然可以将化学相似性从应用角度进行定义,比如描述为两种分子在描述单元空间上距离的倒数。例如,如果两种分子的分子量差距(比之其他分子对)较小,那么就可以认为这两种分子较为相似。多种衡量方式可以组合起来,产生多变量的距离度量。根据三角不等式的成立与否,距离度量还可以分为欧几里得度量和非欧几里得度量。通过进行最大共同子图同构问题(MCS)基础上的亚结构搜索[6] ,来进行距离度量和化学相似性评估的方法也很常见。MCS也被用于药物筛选,即尝试与现有药物具有共同亚结构的不同分子 [7]。
数据库中的化学品根据其相似性被归入不同的群组中,对于属性繁多的化学品,既可采用分级分类方法,又可采用不分级的分类方法。而这些化学品的性质则可能通过经验或计算机计算得到。最为广泛应用的分类方法是Jarvis-Patrick算法[8]。
另外,在面向药学应用的化学数据库中,相似性通常被定义为化合物的生物效应。后者通常可以由分子的物理/化学性质,应用定量构效关系半自动地得到。
化学品登录系统
记录化合物独特性信息的数据库被称为化学品登录系统。这类系统通常被用于化合物的索引化,专利注册以及工业数据库中。 物质登录系统一般对化合物在数据库中的唯一表达有强制性要求。一般来说,这样的唯一表达是所谓的“正则”字符串,例如“正则SMILES”。有些化学品登录系统,如CAS则利用计算哈希的方法达到相同的目的。 化学品登录系统与一般化学数据库的关键区别在于,前者能够准确地区分一种物质究竟是已知,未知抑或部分已知。譬如说,一般的化学数据库中可能记录了一个分子,但其立体化学信息则付诸阙如,而在化学品登录系统中,登录者将会被要求提供关于分子构象的准确信息——构象已知或未知,是否是混合物乃至外消旋体,等。每一种不同的情形在化学品登录系统中都作为一个单独的记录。 化学品登录系统也对分子信息进行一些前处理,避免不重要的差别(如不同的卤离子)产生影响。 这类系统的一个典型例子是化学文摘注册系统。参见CAS号。
参考文献
- Pearlman, R.S.; Smith, K.M. . J. Chem. Inf. Comput. Sci. 1999, 39: 28–35 (英语).
- Lin Jr, Hung; Clark, Timothy. . JCIM. 2005, 45 (4): 1010–1016 (英语).
- Meek, P. J.; Liu, Z.; Tian, L.; Wang, C. J; Welsh, W. J; Zauhar, R. J. . DDT 2006. 2006, 19–20: 895–904 (英语).
- Grant, J. A; Gallardo, M. A.; Pickup, B. T. . JCIC. 1996, 17 (14): 1653–1666 (英语).
- Ballester, P. J.; Richards, W. G. . Proc R Soc A. 2007, 463: 1307–1321 (英语).
- S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton, Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics 2009, 1:12. doi:10.1186/1758-2946-1-12(英式英语)
- Rahman, S. Asad; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. . Journal of Cheminformatics. 2009, 1: 12 [2012-06-28]. doi:10.1186/1758-2946-1-12. (原始内容存档于2020-01-28) (英国英语).
- Butina, Darko. . Chem. Inf. Comput. Sci. 1999, 39: 747–750 (英语).
外部链接
Database and registration software
- CDK,一个开源的化学品数据JAVA图书馆 (页面存档备份,存于)(英文)
- JChem Base (页面存档备份,存于)(英文) 和 JChem Cartridge(英文) ChemAxon提供的Java和.NET版本数据库管理搜索工具
- Instant JChem(英文) ChemAxon提供的Java桌面数据库管理搜索软件。个人版免费
- SMSD (小分子子图探测器) (页面存档备份,存于)(英式英语) 基于JAVA的数据库软件,可以计算小分子之间的最大共同子图(MCS)
- JOELib (页面存档备份,存于)(英文),基于JAVA的化学品数据库
- '化学品查找服务' 与 'NCI 增强版数据浏览器' (页面存档备份,存于)(英文),国家癌症研究院(NCI)CADD小组提供的网络数据库服务
名称数据库
- MOLBASE Online Database (页面存档备份,存于)(英文),免费化学数据库,可以方便检索查询化学品名称、CAS号、化合物结构、子结构和相似结构搜索,可查询化学品物化性质;上下游关系。
- Chemical Substances Database,一个免费的化学品名称数据库,有37000个以上的条目,在化学品名称日英互译方面十分有用。
- ChemSub Online (页面存档备份,存于)(法文),免费的化学品信息网上门户,提供八种语言的化学品名称。
- EuroChem Online Database,免费的化学数据库。