【奥鹏】-[南开大学]《网络爬虫与信息提取》19秋期末考核
试卷总分:100 得分:100
第1题,如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击
A、XSS
B、DOS
C、DDOS
D、跨域
正确答案:
第2题,以下哪个HTML标签表示分区或节()
A、
B、
C、
D、
正确答案:
第3题,使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()
A、content
B、text
C、title
D、body
正确答案:
第4题,Python操作CSV文件可通过()容器的方式操作单元格
A、列表
B、元组
C、字典
D、集合
正确答案:
第5题,Python中Object=(1, 2, 3, 4, 5),则Objcet是()
A、列表
B、元组
C、字典
D、集合
正确答案:
第6题,HTTP常用状态码表明服务器正忙的是()
A、500
B、503
C、403
D、404
正确答案:
第7题,使用UI Automator打开微信的操作是获取相应图标后使用命令()
A、touch
B、click
C、push
D、hover
正确答案:
第8题,Python中Object={'obj_1':'1','obj_2':'2'},则Objcet.get('boj_1','3')是()
A、1
B、2
C、3
D、无输出
正确答案:
第9题,采用以下()技术可以实现异步加载
A、HTML
B、AJAX
C、CSS
D、HTTP
正确答案:
第10题,网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的()。
A、robot.txt
B、robot.html
C、robots.txt
D、robots.html
正确答案:
第11题,Chrome的开发者工具中哪个选项可以查找到cookies
A、Elements
B、Sources
C、Network
D、Peformance
正确答案:
第12题,以下哪个命令是linux下解压缩命令()
A、curl
B、tar -zxvf
C、mkdir
D、cp
正确答案:
第13题,MongoDB中数据存储的形式类似于()
A、列表
B、元组
C、字典
D、集合
正确答案:
第14题,以下哪个HTML标签表示定义列表项目()
A、
B、
C、
D、
正确答案:
第15题,python中可以用来将图片中的文字转换为文本的第三方类库是
A、lxml
B、requests
C、beautifulsoup
D、pytesseract
正确答案:
第16题,下列哪项不是HTTP的请求类型()
A、GET
B、POST
C、PUT
D、SET
正确答案:
第17题,以下哪个HTML标签表示定义 HTML 表格中的标准单元格()
A、
B、
C、
D、
正确答案:
第18题,当爬虫创建好了之后,可以使用"scrapy()" 命令运行爬虫。
A、startup
B、starwar
C、drawl
D、crawl
正确答案:
第19题,参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。
A、HEADER
B、HEADERS
C、HEAD
D、BODY
正确答案:
第20题,以下哪个命令是利用URL语法在命令行下工作的文件传输工具()
A、curl
B、tar -zxvf
C、mkdir
D、cp
正确答案:
第21题,MongoDB中获取名字为db的库的语句为()
A、client.db
B、client('db')
C、client['db']
D、client{'db'}
正确答案:,C
第22题,以下哪些方法属于Python写CSV文件的方法()
A、writeheaders
B、writeheader
C、writerrows
D、writerow
正确答案:,C,D
第23题,下载器中间件的作用有哪些?
A、更换代理IP
B、更换Cookies
C、更换User-Agent
D、自动重试
正确答案:,B,C,D
第24题,如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()
A、非法侵入计算机系统罪
B、非法获取计算机信息系统数据罪
C、非法获取计算机数据罪
D、非法获取系统罪
正确答案:,B
第25题,Python中()容器有推导式
A、列表
B、元组
C、字典
D、集合
正确答案:,C,D
第26题,通用网络爬虫通常采用串行工作方式
T、对
F、错
正确答案:F
第27题,需要登录的网站一般通过GET请求就可以实现登录。
T、对
F、错
正确答案:F
第28题,代理中间件的可用代理列表一定要写在settings.py里面
T、对
F、错
正确答案:F
第29题,requests中get请求方法的使用为requests.get('网址', data=data)
T、对
F、错
正确答案:F
第30题,所有的异步加载都会向后台发送请求
T、对
F、错
正确答案:F
第31题,在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务
src/redis-server
T、对
F、错
正确答案:F
第32题,爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。
T、对
F、错
正确答案:F
第33题,爬虫中间件的激活需要另外写一个文件来进行
T、对
F、错
正确答案:F
第34题,已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行
T、对
F、错
正确答案:F
第35题,Linux环境中,Virtualenv创建的虚拟Python环境中,执行pip命令安装第三方库就不需要使用sudo命令了。
T、对
F、错
正确答案:T
第36题,在Scrapy的依赖库文件中,pywin32和Twisted的底层是基于##开发的。
正确答案:
第37题,爬虫中间件scrapy.spidermiddlewares.urllength.UrlLengthMiddleware的顺序号是##
正确答案:
第38题,在Windows下运行Redis命令为##redis.windows.conf
正确答案:
第39题,MongoDB如果需要从外网访问数据库,那么需要修改安装MongoDB时用到的配置文件##
正确答案:
第40题,lxml库中etree模块的etree.tostring()方法是做什么用的
正确答案:
第41题,请描述爬虫中的深度优先搜索过程
正确答案: