深网

深网,即深层网站英语:),是指不能被标准搜索引擎索引的万维网内容。与深网相反的术语是表网,任何人都可以使用互联网访问。

深网可以直接通过的URLIP地址访问,但可能需要输入密码或其他安全信息才能访问实际内容[1][2]。这类网站用途包括网络邮件网络银行、限制访问的社群媒体页面和数据以及用户必须付费并受到付费墙保护的服务,如随选视频、网络杂志和报纸等。

名词

2009年,深网与暗网这两个名词首度被混为一谈,当时讨论了深网概念以及自由网黑暗网络上发生的非法活动[3]。这些犯罪活动包括个人密码、造假身份证件、毒品、枪支和儿童色情交易[4]

从那时起,在媒体报导丝绸之路之后,媒体开始使用深网作为黑暗网站黑暗网络的同义词,导致了长期的混乱[5][6]Wired记者Kim Zetter和Andy Greenberg建议使用不同的方式使用这些术语。虽然深网是指无法利用传统搜索引擎访问的任何网站,但暗网只是深网的一部分,被刻意隐藏并且无法利用一般浏览器和方法进入[7][8][9][10][11]

命名

伯格曼在The Journal of Electronic Publishing上发表一篇关于深网的重大论文中提到,吉尔.艾尔斯沃夫曾经使用“隐形网”这一术语表示那些没有被任何搜索引擎索引注册的网站[12]。伯格曼还引用法兰克·加西亚在1996年1月的一篇文章[13]

这些网站可能已经被合理地设计出来了,但是他们却没有被任何搜索引擎编列索引,以至于事实上没有人能找到他们。我可以这样对这些不可见的网站说,你们是隐藏了的。我称之为隐形网。

早期另一个使用“隐形网”这一术语的是一家叫做“个人图书馆软件”公司的布鲁斯·芒特和马修·B·科尔,当他们公司在1996年12月推出和发行的一款软件时,他们对深网工具的有过这样的一番描述。[14]

现在普遍接受的深网这一特定术语首次使用在2001年伯格曼的研究中[12]。2001年,计算机科学家迈克尔·伯格曼将当今万维网上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索,巨量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息,而标准的搜索引擎却无法对其进行查找。传统的搜索引擎“看”不到,也获取不了这些存在于深网的内容,除非通过特定的搜查这些页面才会动态产生。于是相对的,深网就隐藏了起来。据估计,深网要比表网大几个数量级[12]

深网资源

防止网页被传统搜索引擎索引的方法可以被分类为以下一个或多个:

  1. 被限制访问的内容:以技术方式限制访问其网页的网站,例如Robots.txtCAPTCHAs或是禁止搜索引擎创建缓存[15]
  2. 非HTML或文本的内容:图像或视频等多媒体或是特定文件格式无法被搜索引擎处理。
  3. 私人网站:需要注册或是登录的网站。
  4. 软件:某些内容刻意隐藏在一般的网络上,只能使用特殊软件如TorI2P或其他程序访问。例如Tor让用户匿名访问.onion网址的网站,以隐藏他们的IP地址。
  5. 未被链接的内容:未被其他网站链接或很少链接的网页,这可能防止被网络爬虫访问。
  6. 网站文件管理库网站时光机这类网站内容的网页无法被搜索引擎编入索引[16]

抓取深网内容

研究人员探寻了如何自动抓取深网内容。

2001年,斯利拉姆·拉格哈瓦(Sriram Raghavan)和赫克托·加西亚·莫利纳(Hector Garcia-Molina)[17][18]发明了一个从用户请求界面表格收集关键词的深网抓取模型并且抓取深网资源。加利福尼亚大学洛杉矶分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho创建了一个自动生成有意义的查询词的进程。[19]

商业搜索引擎已经开始使用以上两种方法之一抓取深网。Sitemap协议(由Google于2005年首次开发并由Google引入)和mod oai是允许搜索引擎和其他网络服务探索深网解决方法。以上两种解决方法允许网络服务主动公布网址,这对于他们来说是容易的,因而允许自动探寻资源而不直接通过网络表面的链接。Google的深网探寻系统预先计算每个HTML表单并且添加结果HTML页面到Google搜索引擎索引。在这个系统里,使用三种方法计算提交词:

  1. 为输入搜索选择关键词允许的输入值,
  2. 确定是否只接受特定的值(例如时间),以及
  3. 选择少量的组合生成适合纳入网站的搜索索引网址。

2008年,为了方便Tor隐藏服务的用户访问和搜索隐藏的.onion网域,亚伦·斯沃茨设计了Tor2web—一个能够利用普通浏览器访问的代理应用进程[20]

参见

参考资源

  1. Madhavan, J., Ko, D., Kot, Ł., Ganapathy, V., Rasmussen, A., & Halevy, A. (2008). Google's deep web crawl. Proceedings of the VLDB Endowment, 1(2), 1241–52.
  2. Shedden, Sam. . Sunday Mail. June 8, 2014. (原始内容存档于March 1, 2020).
  3. Beckett, Andy. . November 26, 2009 [August 9, 2015]. (原始内容存档于2020-02-26).
  4. D. Day. . Wake Forest University: TEDx Talks. (原始内容存档于November 13, 2021).
  5. . BrightPlanet. March 27, 2014 [2022-07-03]. (原始内容存档于2015-05-16).
  6. Solomon, Jane. . May 6, 2015 [May 26, 2015]. (原始内容存档于2017-08-14).
  7. (PDF). January 20, 2014 [January 15, 2017]. (原始内容 (PDF)存档于2017-01-16).
  8. Lam, Kwok-Yan; Chi, Chi-Hung; Qing, Sihan. . Springer. November 23, 2016 [January 15, 2017]. ISBN 9783319500119. (原始内容存档于2022-03-20) (英语).
  9. . Dictionary Blog. May 6, 2015 [January 15, 2017]. (原始内容存档于2017-08-14).
  10. Akhgar, Babak; Bayerl, P. Saskia; Sampson, Fraser. . Springer. January 1, 2017 [January 15, 2017]. ISBN 9783319476711. (原始内容存档于2022-03-19) (英语).
  11. . The Globe and Mail. [January 15, 2017]. (原始内容存档于2017-07-21).
  12. Bergman, Michael K. . The Journal of Electronic Publishing. August 2001, 7 (1) [2009-02-24]. (原始内容存档于2011-04-10).. According to that paper, the study was originally published on July 26, 2000, with data then updated to 2001.
  13. Garcia, Frank (January 1996). "Business and Marketing on the Internet". Masthead 9 (1). (Citation from Flynn-Burhoe, Maureen (19 December 2006). "The Ultimate Guide to the Invisible Web 页面存档备份,存于". oceanflynn @ Digg.) (Electronic copy archived by the Internet Archive.)
  14. Personal Library Software (Dec 1996). "PLS introduces AT1, the first 'second generation' Internet search service". (Archived by the Internet Archive.)
  15. . Internet Engineering Task Force. 2014 [2014-07-30]. (原始内容存档于2017-05-13).
  16. Wiener-Bronner, Danielle. . Fusion. June 10, 2015 [June 27, 2015]. (原始内容存档于2015-06-30). There are other simpler versions of Memex already available. "If you've ever used the Internet Archive's Wayback Machine", which gives you past versions of a website not accessible through Google, then you've technically searched the Deep Web, said Chris Mattmann.
  17. Sriram Raghavan; Hector Garcia-Molina. (PDF). Stanford Digital Libraries Technical Report. 2000 [2008-12-27]. (原始内容存档 (PDF)于2018-05-08).
  18. Raghavan, Sriram; Garcia-Molina, Hector. (PDF). : 129–138. 2001 [2009-07-14]. (原始内容存档 (PDF)于2019-07-28).
  19. Alexandros, Ntoulas; Petros Zerfos, and Junghoo Cho. (PDF). UCLA Computer Science. 2005 [2009-02-24]. (原始内容存档 (PDF)于2020-06-05).
  20. Aaron, Swartz. . [February 4, 2014]. (原始内容存档于2018-10-31).
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.