GitHub

`` 爬虫的两部分，一是下载 Web 页面，有许多问题需要考虑，如何最大程度地利用本地带宽，如何调度针对不同站点的 Web 请求以减轻对方服务器的负担等。一个高性能的 Web Crawler 系统里，DNS 查询也会成为急需优化的瓶颈，另外，还有一些“行规”需要遵循（例如 robots.txt）。而获取了网页之后的分析过程也是非常复杂的， Internet 上的东西千奇百怪，各种错误百出的 HTML 页面都有，要想全部分析清楚几乎是不可能的事；另外，随着 AJAX 的流行，如何获取由 Javascript 动态生成的内容成了一大难题；除此之外，Internet 上还有有各种有意或无意出现的 Spider Trap ，如果盲目的跟踪超链接的话，就会陷入 Trap 中万劫不复了，例如这个网站，据说是之前 Google 宣称 Internet 上的 Unique URL 数目已经达到了 1 trillion 个，因此这个人 is proud to announce the second trillion 。``

def say_hello():
    print 'aldslfjfdsa'

def asdlfj():
    print 'ok'

Name		Name	Last commit message	Last commit date
Latest commit History 87 Commits
baseinfo		baseinfo
databases		databases
static		static
templates		templates
templatetags		templatetags
tools		tools
zzlib		zzlib
.gitignore		.gitignore
README.rst		README.rst
__init__.py		__init__.py
config.py		config.py
manage.py		manage.py
settings.py		settings.py
urls.py		urls.py
views.py		views.py
wsgi.py		wsgi.py

输入		输出
A	B	C
False	False	True
True	False	False

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

目录

表格

标题

一级标题

耳机标题

三级标题

行元素

缩进

超级块元素

物件

About

Releases

Packages

Languages

zztemp001/yeekaa

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Languages