23秋学期(仅限-高起专1909、专升本1909)《网络爬虫与信息提取》在线作业-00002
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.当需要把Python里面的数据发送给网页时,应先将其转换成()
A.Json字符串
B.GET
C.POST
D.Request
2.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A.列表
B.元组
C.字典
D.集合
3.Python中Object={'obj_1':'1','obj_2':'2'},则Objcet是()
A.列表
B.元组
C.字典
D.集合
4.当需要把Python里面的数据发送给网页时,需要先转换成()字符串
A.Python
B.Json
C.正则表达式
D.Ajax
5.Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含()
A.列表
B.元组
C.字典
D.集合
6.HTTP常用状态码表明服务器不允许访问那个资源的是()
A.500
B.503
C.403
D.405
7.Python中退出循环应用关键字()
A.break
B.continue
C.exit
D.return
8.使用python定制mitmproxy,下面的语句请求的是()。{req.headers["User-Agent"]}
A.headers
B.文本内容
C.目标网站
D.user-agent
9.requests中post请求方法的使用为requests.post('网址', data=data)中的data为()
A.列表
B.元组
C.字典
D.集合
10.在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
11.通常使用()工具来模拟浏览器进行爬虫请求
A.Selenium
B.Chrome
C.ChromeDriver
D.WebDriver
12.当爬虫运行到yield scrapy.Request()或者yield item的时候,下列哪个爬虫中间件的方法被调用?
A.process_spider_output()
B.process_spider_exception()
C.process_spider_input()
D.process_start_ requests()
13.下面代码一共执行循环多少次(): i=0 while i<10: i+=1
A.9
B.10
C.11#0
14.使用UI Automator获滚动屏幕的操作是得到相应控件后使用命令()
A.scroll
B.scroll_up
C.scroll_forword
D.scroll_back
15.某些网站在发起Ajax请求时会携带()字符串用于身份验证
A.Token
B.Cookie
C.ReqTime
D.sum
16.Python中以下哪个容器里的元素不能重复()
A.列表
B.元组
C.字典
D.集合
17.Python操作CSV文件可通过()容器的方式操作单元格
A.列表
B.元组
C.字典
D.集合
18.以下哪个命令是利用URL语法在命令行下工作的文件传输工具()
A.curl
B.tar -zxvf
C.mkdir
D.cp
19.Python中若定义object="12345",则print(object[::-1])输出()
A.1
B.5
C.54321
D.程序报错
20.在Mac OS下安装MongoDB使用命令() install mongodb
A.brew
B.apt-get
C.sudo
D.apt
二、多选题 (共 10 道试题,共 20 分)
21.网络爬虫的用途有()
A.收集数据
B.尽职调查
C.提高流量
D.攻击服务器
22.以下HTTP状态码表示服务器没有正常返回结果的是
A.200
B.301
C.404
D.500
23.requests中post请求方法的第二个参数可以为()
A.字典
B.列表
C.json数据
D.字符串
24.HTTP常用状态码表明表明服务器本身发生错误的有()
A.403
B.404
C.500
D.503
25.MongoDB中获取名字为db的库的语句为()
A.client.db
B.client('db')
C.client['db']
D.client{'db'}
26.使用BeautifulSoup对象后可以使用()来查找内容
A.find_all
B.find
C.search
D.search_all
27.Python中的容器有()
A.列表
B.元组
C.字典
D.集合
28.PyMongo删除操作有()
A.delete
B.delete_all
C.delete_one
D.delete_many
29.PyMongo更新操作有()
A.update
B.update_all
C.update_one
D.update_many
30.Redis中的值可以支持()
A.列表
B.哈希
C.集合
D.有序集合
三、判断题 (共 20 道试题,共 40 分)
31.使用UI Automatorr操作实体键的命令为device.press.实体按键名称()
32.当Charles抓包以后,在Mac OS系统下可以按Command+F组合键,在Windows系统下按Ctrl+F组合键打开Charles进行搜索
33.XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。
34.Python中写CSV文件的writerow方法参数为包含字典的列表类型
35.Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。
36.process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
37.Redis中写数据命令lpush中l代表list
38.为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。
39.HTTP状态码503表示服务器内部故障。
40.Robo 3T与RoboMongo是完全不一样的软件
41.使用AJAX技术,可以在不刷新网页的情况下更新网页数据
42.Python中条件语句在使用and连接的多个表达式中,只要有一个表达式不为真,那么后面的表达式就不会执行。
43.UI Automator Viewer与Python uiautomator可以同时使用
44.在默认情况下,Scrapyd可以从外网访问
45.需要实名认证的打码网站更加安全可靠。
46.requests中post请求方法的使用为requests.post('网址', data=data)
47.HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源
48.自己能查看的数据,允许擅自拿给第三方查看
49.chrome开发者工具没法对数据进行搜索。如果想知道一个特定的异步加载内容来自哪个请求,必须在“Network”选项卡里面一个请求一个请求地进行查看.
50.在请求头中设置User-Agent即可正常请求网站