24秋学期(高起本:1803-2103、专升本/高起专:2009-2103)《网络爬虫与信息提取》在线作业-00002
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.下面Python代码输出为(): def default_para_trap(para=[], value=0): para.append(value) return para print('第一步:{}'.format(default_para_trap(value=100))) print('第二步:{}'.format(default_para_trap(value=50)))
A.第一步:[100] 第二步:[100,50]
B.第一步:[100] 第二步:[50]
C.第一步:[100] 第二步:[]
D.第一步:[100] 第二步:[100]
2.Python读CSV文件需要哪个方法()
A.CSVReader
B.CsvReader
C.DictReader
D.FileReader
3.在Python中,为了使用XPath,需要安装一个第三方库()
A.lxml
B.xml
C.xpath
D.path
4.chrome默认打开开发者工具的快捷是
A.F5
B.F11
C.F12
D.F2
5.xpath中extract方法返回值类型是()
A.列表
B.元组
C.字典
D.集合
6.Redis中如果不删除列表中的数据,又要把数据读出来,就需要使用关键字()
A.range
B.lrange
C.srange
D.pop
7.Redis中读取数据语句lrange chapter 0 3,那么表示读列表中()个值
A.2
B.3
C.4
D.5
8.requests获取get或者post请求后需要通过()属性获取文本内容
A.content
B.text
C.string
D.body
9.以下表示请求资源找不到的HTTP状态码为
A.200
B.301
C.404
D.500
10.当需要把Python里面的数据发送给网页时,需要先转换成()字符串
A.Python
B.Json
C.正则表达式
D.Ajax
11.Python中哪种容器一旦生成就不能修改
A.列表
B.元组
C.字典
D.集合
12.Python中Object=(1, 2, 3, 4, 5),则Objcet是()
A.列表
B.元组
C.字典
D.集合
13.()是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。
A.meta
B.head
C.header
D.body
14.在Scrapy工程的settings.py文件中,哪个配置项,如果设置为True,那么Scrapy就会自动跳过网站不允许爬取的内容()
A.ROBOTSTXT_ OBEY
B.ROBOTSTXT_JUDGE
C.ROBOTSTXT
D.ROBOTSTXT_ IF
15.HTTP常用状态码表明服务器内部资源出故障了的是()
A.500
B.503
C.403
D.404
16.Python操作CSV文件可通过()容器的方式操作单元格
A.列表
B.元组
C.字典
D.集合
17.Python中把列表转换为集合需要使用##函数
A.set
B.list
C.convert
D.change
18.HTTP常用状态码表明服务器不允许访问那个资源的是()
A.500
B.503
C.403
D.405
19.打码平台一般通过()识别验证码。
A.人工识别
B.机器学习识别
C.光学字符识别
D.深度学习识别
20.带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率
A.Cookie
B.Html
C.Headers
D.CSS
二、多选题 (共 10 道试题,共 20 分)
21.最常见的HTTP请求类型有()
A.GET
B.POST
C.SEND
D.RECEIVE
22.BS4可以用来从()中提取数据
A.HTML
B.XML
C.数据库
D.JSON
23.HTTP常用状态码表明表明服务器本身发生错误的有()
A.403
B.404
C.500
D.503
24.Python中哪种容器生成后可以修改内容
A.列表
B.元组
C.字典
D.集合
25.下列关于在IOS上配置charles的说法正确的是()
A.不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。
B.手机和电脑需要在同一个局域网下。
C.HTTP代理可以使用“自动”选项。
D.安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动
26.PyMongo更新操作有()
A.update
B.update_all
C.update_one
D.update_many
27.Python中有哪些实现多线程方法()
A.multiprocess.dummy
B.threading.Thread
C.process
D.PyMongoDB
28.Python中通过Key来从字典object中读取对应的Value的方法有()
A.object[key]
B.object.get(key)
C.object.pop(key)
D.object.pop()
29.HTTP常用状态码表明表明客户端是发生错误的原因所在的有()
A.403
B.404
C.500
D.503
30.使用Selennium获取网页中元素的方法有
A.find_element_by_name
B.find_element_by_id
C.find_elements_by_name
D.find_elements_by_id
三、判断题 (共 20 道试题,共 40 分)
31.charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。
32.Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库
33.Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势
34.mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本
35.使用UI Automatorr让屏幕向右滚动的操作是得到相应控件后使用命令scroll.horiz.forward()
36.PyMongoDB中排序方法sort第二个参数-1表示升序
37.HTTP状态码302与307完全同义。
38.使用异步加载技术的网站,被加载的内容可以在源代码中找到
39.需要登录的网站一般通过GET请求就可以实现登录。
40.在使用多线程处理问题时,线程池设置越大越好
41.Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。
42.爬虫的源代码通过公开不会对被爬虫网站造成影响
43.打码平台都是靠机器使用OCR技术识别图片上的文字。
44.Charles和Chrome开发者工具相比,只是多了一个搜索功能。
45.爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。
46.Redis中查询列表长度命令llen中l代表left,即从左侧开始数
47.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
48.当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入"163.com"就可以了
49.MongoDB是一个关系数据库产品
50.Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。