20春学期(1709、1803、1809、1903、1909、2003)《网络爬虫与信息提取》在线作业
试卷总分:100 得分:98
一、单选题 (共 20 道试题,共 40 分)
1.Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含()
A.列表
B.元组
C.字典
D.集合
答案:B
2.以下表示请求正常处理的HTTP状态码为
A.200
B.301
C.404
D.500
答案:A
3.Python中线程池map()方法第二个参数是()
A.列表
B.元组
C.字典
D.集合
答案:A
4.()是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。
A.meta
B.head
C.header
D.body
答案:A
5.如果使用Python的数据结构来做类比的话,MongoDB中集合相当于一个()
A.列表
B.元组
C.字典
D.集合
答案:A
6.PyMongo中逻辑查询表示不等于的符号是()
A.$ne
B.$lt
C.$gt
D.$eq
答案:
7.PyMongo中逻辑查询表示大于等于的符号是()
A.$gt
B.$lt
C.$gte
D.$lte
答案:C
8.以下哪个HTML标签表示定义文档的主体()
A.<div>
B.<body>
C.<head>
D.<footer>
答案:B
9.某些网站在发起Ajax请求时会携带()字符串用于身份验证
A.Token
B.Cookie
C.ReqTime
D.sum
答案:A
10.下面Python代码输出为(): def default_para_trap(para=[], value=0): para.append(value) return para print('第一步:{}'.format(default_para_trap(value=100))) print('第二步:{}'.format(default_para_trap(value=50)))
A.第一步:[100] 第二步:[100,50]
B.第一步:[100] 第二步:[50]
C.第一步:[100] 第二步:[]
D.第一步:[100] 第二步:[100]
答案:A
11.用Xpathh获取第二个div标签应该是()
A.dvi(1)
B.div(2)
C.div[1]
D.div[2]
答案:D
12.查看网站请求一般在Chrome开发者模式下的()选项卡中查看
A.Console
B.Sources
C.Network
D.Performance
答案:C
13.Python中Object={'obj_1':'1','obj_2':'2'},则Objcet.get('boj_1','3')是()
A.1
B.2
C.3
D.无输出
答案:A
14.通常使用()工具来模拟浏览器进行爬虫请求
A.Selenium
B.Chrome
C.ChromeDriver
D.WebDriver
答案:A
15.Python并导入uiautomator来操作设备的语句是from uiautomator import ()
A.Device
B.Devices
C.Jobs
D.Job
答案:A
16.Python中把列表转换为集合需要使用##函数
A.set
B.list
C.convert
D.change
答案:A
17.Python中若定义object="12345",则print(object[::-1])输出()
A.1
B.5
C.54321
D.程序报错
答案:C
18.Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为()
A.空
B.空列表
C.空元组
D.不返回
答案:B
19.以下哪个命令是利用URL语法在命令行下工作的文件传输工具()
A.curl
B.tar -zxvf
C.mkdir
D.cp
答案:A
20.使用UI Automatorr输入文字的操作是得到相应控件后使用命令()
A.settext
B.set
C.set_text
D.text
答案:C
二、多选题 (共 10 道试题,共 20 分)
21.HTTP常用状态码表明表明客户端是发生错误的原因所在的有()
A.403
B.404
C.500
D.503
答案:AB
22.Python中()容器有推导式
A.列表
B.元组
C.字典
D.集合
答案:ACD
23.Python中通过Key来从字典object中读取对应的Value的方法有()
A.object[key]
B.object.get(key)
C.object.pop(key)
D.object.pop()
答案:AB
24.PyMongo更新操作有()
A.update
B.update_all
C.update_one
D.update_many
答案:CD
25.HTTP常用状态码表明表明服务器本身发生错误的有()
A.403
B.404
C.500
D.503
答案:CD
26.以下哪些可以独立成为Python编译器()
A.Pycharm
B.IDLE
C.Eclipse
D.Visual Studio 2010
答案:AB
27.requests中post请求方法的第二个参数可以为()
A.字典
B.列表
C.json数据
D.字符串
答案:AC
28.MongoDB中获取名字为set1的集合的语句为()
A.database.set1
B.database('set1')
C.database['set1']
D.database{'set1'}
答案:AC
29.最常见的HTTP请求类型有()
A.GET
B.POST
C.SEND
D.RECEIVE
答案:AB
30.PyMongo删除操作有()
A.delete
B.delete_all
C.delete_one
D.delete_many
答案:CD
三、判断题 (共 20 道试题,共 40 分)
31.在请求头中设置User-Agent即可正常请求网站
答案:错误
32.一般来说在页面都通过GET将用户登录信息传递到服务器端。
答案:错误
33.Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势
答案:错误
34.当运行爬虫代码后,出现"Forbidden by robots.txt"提示后,说明当前时间段被爬取的网站无法访问。
答案:错误
35.使用UI Automatorr操作实体键的命令为device.press.实体按键名称()
答案:正确
36.爬虫中间件的作用对象是请求request和返回response
答案:错误
37.Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取
答案:错误
38.运行MongoDB以后,不会在终端打印任何Log
答案:错误
39.Selenium必须加载对应的webdriver才能模拟浏览器访问
答案:正确
40.Robo 3T与RoboMongo是完全不一样的软件
答案:错误
41.在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容
答案:正确
42.使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。
答案:正确
43.要实现Charles对Android抓包,其过程比iOS稍微复杂一点。这是因为不同的Andorid设备,安装证书的入口可能不一样
答案:正确
44.Python中包含字典的列表页可以转换成JSON字符串
答案:正确
45.MongoDB URI的格式为: mongodb://服务器IP或域名:端口@用户名:密码
答案:错误
46.Python中字符串切片以后的结果还是字符串
答案:正确
47.微信小程序的反爬虫能力要比网页的高很多。
答案:错误
48.cookies在http请求中是明文传输的。
答案:正确
49.默认情况下,MongoDB可以通过外网访问
答案:错误
50.Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据;
答案:正确