在日常工作中常常需要重复填写某些表单,如果人工完成,费时费力,而且网络延迟令人十分崩溃。如果能够用程序实现自动填表,效率可以提高一倍以上,并且能够移植到多台计算机,进一步提高工作效率。webdriver是python的selenium库中的一个自动化测试工具,它能完全模拟浏览器的操作,无需处理复杂的request、post,对爬虫初学者十分友好。

一、环境配置

python3.6+selenium库+xlrd库+xlwt库

其中xlrd和xlwt库用于读写excel表中的数据。

还要下载一个浏览器的driver文件用于打开浏览器,注意要选择与计算机系统相符合的版本(max/windows64位/windows32位)

ChromeDriver:http://npm.taobao.org/mirrors/chromedriver/

IEDriver:http://selenium-release.storage.googleapis.com/index.html

将下载下来的driver.exe放到浏览器根目录和python的根目录

二、打开网页

以IE浏览器为例,以下两行代码就可以实现打开一个IE浏览器并且访问我们需要填表的网站

driver= webdriver.Ie()
driver.get('http://xxxx.com/')

如果网站需要登陆(需要填表的一般是公司内部网站),再写一个login函数,将driver作为参数调用

driver = login(driver)

注意一定要将driver传回,这样driver才能继续接受程序的指令

三、元素定位

webdriver的工作原理是找到网页中某一个元素,可以对其进行填入数据或点击等操作。

关于元素定位可以参考这篇博客

我主要用到的元素定位方式有

driver.find_element_by_id('someid')#通过元素的id定位
driver.find_element_by_css_selector("input[value='确定'")#查找一个input元素,它的value属性值为'确定'
driver.find_element_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")#查找一个style属性值为'COLOR:red'的span元素的第一个span子元素

(1)通过id定位

如果我们想在网页表单的某一个位置填某项值或者点击某个按钮,我们首先要用开发者工具查看这个元素的源代码,然后首先观察它有没有id,如果有id,直接用id定位该元素。然后,用

driver.find_element_by_id('someid').click()#点击元素
driver.find_element_by_id('someid').send_keys('somekeys')#填入'somekeys'
driver.find_element_by_id('someid').clear()#清空输入框中已有的值

实现我们想要做的操作。

(2)通过ccs selector定位

如果我们想要操作的元素没有ID,那么我们就要找到它跟网页其他元素不同的特征,ccs selector是一种十分灵活的定位方式,其中用value定位是一个不错的选择。以

driver.find_element_by_css_selector("input[value='确定'")

为例,双引号中的input可以换成任何网页元素(div、span、input、a等),中括号中是该元素的某一个属性(style、id、value、class等),等号后面是该属性的值。

注意,如果网页中有多个元素同时满足ccs selector的条件,如有多个value=“确定” 的input,那么find_element_by_css_selector只会定位到在html源代码中最靠前的一个,而find_elements_by_css_selector会找到源代码中所有满足条件的元素,并以列表的形式返回这些找到的元素。例如,网页中弹出很多个提示框,我们要一一去点确定,可以这样操作

list=driver.find_elements_by_css_selector("input[value=' 确定 ']")
for l in list:
l.click()

但是,如果这些提示框是重叠出现的,而最上层的提示框实际上在源码中更靠后的位置,那么列表中第一个“确定”元素就会被叠在上面的提示框遮挡,无法点击,这个时候倒序一下数组就可以了,从最后一个“确定”元素开始点击

query=driver.find_elements_by_css_selector("input[value=' 确定 ']")
for q in query[::-1]:
q.click()

(3)通过xpath定位

xpath定位比较复杂但是非常全面,当这个元素的class、style属性和其他元素一样,实在没什么特点可以一步定位的时候,我们就可以用xpath,先找到我们想要的元素的父子兄弟元素,再定位到我们想要的元素。例如

driver.find_element_by_xpath('//*[@class="submit clear"]/input[1]').click()
text =driver.find_element_by_xpath("//input[@value=' 确定 ']/../preceding-sibling::div[1]").text
driver.find_elements_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")

引号中的//表示相对定位,表示从源代码中任何地方开始寻找。

//后可以跟任何元素,*代表任意元素,即定位符合属性筛选任何元素。

中括号内是属性的筛选条件,@后可以加任意属性。contains(@style,'COLOR: red')表示的筛选条件是:style属性中包含”COLOR:red“。这里为什么不直接用@style='COLOR: red'

的原因是,可能在我们审查源代码的时候这个元素的style属性只有'COLOR: red'这一条,但是动态界面的style属性经常变化,程序运行时直接用等于是定位不到这个元素的。

我们通常需要靠先找到某个有id的元素,再通过层级关系定位到我们真正想要定位的元素,关于兄弟父子元素定位请参考https://www.jb51.net/article/92673.htm

/..  可以定位这个元素的父亲元素

/  可以定位这个元素的子元素

/preceding-sibling::  可以定位这个元素的哥哥元素

/following-sibling::  可以定位这个元素的弟弟元素

如/input[1]表示子元素中第一个input、/../preceding-sibling::div[1]表示父元素的哥哥元素中的第一个div

(4)通过当前节点定位

有时候我们会遇到需要判断一下元素当前的状态(是否被选择)再决定接下来的操作的情况,这时就需要用一个变量来保存当前节点

LTE=driver.find_element_by_xpath("//input[@id='LTE']/../span[1]"

然后再用get_attribute获得当前节点元素的属性,在这个例子里,如果元素为蓝色,就不需要点击。代码实现为:

if LTE.get_attribute("style")=="COLOR: blue":
 pass
 else:
 LET.click()

需要筛选出特定文本的情况:

 red=driver.find_elements_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")#找出所有红色的文本
 for r in red:
 if '低消' in r.text:#如果文本信息中包含‘低消'
  r.find_element_by_xpath("./../preceding-sibling::input[1]").click()#注意从当前节点定位的时候要以‘./'开头
  break

如果寻找的元素需要滚动界面才能看到,这个时候可以用js聚焦此元素,页面便会滚动到该元素的位置

 target=driver.find_element_by_css_selector("input[value=' 确定 ']")
 driver.execute_script("arguments[0].scrollIntoView();", target)
 target.click()

四、不确定情况处理

(1)有可能出现的弹窗

在填表过程中,有些地方有可能出现一个弹框也有可能不出现,这个时候,无论这个弹窗是什么,用try..except语句处理就可以解决

js触发的弹窗:

 try:
 driver.find_element_by_css_selector("input[value=' 确定 ']").click()
 except Exception as e:
 pass

网页alert弹窗:

 try:
 driver.switch_to.alert.dismiss()
 except Exception:
 pass

dismiss()对应的是alert弹窗的”取消“项,accept()对应的是”确定“项,driver.switch_to.alert.text 可以获得弹窗的文本内容。

(2)数量不定的弹窗

对上文提到的多个提示框情况,除了用 query=driver.find_elements_by_css_selector("input[value=' 确定 ']") 一次性找到所有元素再顺序或倒序点击之外,还可以用一个while循环解决

 while(1):
 try:
  driver.find_element_by_css_selector("input[value=' 确定 ']").click()
 except Exception as e:
  break

(3)网络延迟

有些网页在点击查询信息之后需要加载一段时间,加载中的页面是找不到我们接下来想找的元素的,因此程序就会报错,此时有两种解决方法。

一种是固定等待一段时间,等待网页加载完毕,这种方法的缺点是很难找到等待的最佳时间,太短的话页面还没加载完,太长就影响效率

time.sleep(2)

另一种是用一个while循环一直寻找下一个我们要找的元素

 while(1):
 try:
  driver.find_element_by_id('continueTrade').click()
  break
 except Exception:
  pass

这种方法的前提是下一个要找的元素必定会出现

五、frame处理

关于frame处理这篇博客写得非常好https://www.jb51.net/article/203425.htm

总结起来就是:frameset不用切,frame层层切。最好一系列填表操作完后都用 driver.switch_to.default_content() 回到原文档,这样不容易混乱

这里再补充一点frame没有id时的切入方法

 frame= self.driver.find_element_by_xpath("/html/body/div[12]/iframe")#先定位frame位置,用一个变量储存这个节点
 self.driver.switch_to_frame(frame)#再切入这个节点

六、excel数据读写

excel数据读写十分简单,看代码就好了:

def read(file):
 data = xlrd.open_workbook(file)#打开excel文件
 table = data.sheets()[0]#读取第一个sheet的数据
 phones = table.col_values(0)#以列表形式存储第一列数据
 peoples = table.col_values(1)#以列表形式存储第二列数据

 return phones,peoples

def write(result):
 file=xlwt.Workbook()#创建一个excel文件
 table = file.add_sheet('sheet1')#添加一个sheet
 for i in range(len(result)):#写入数据
 table.write(i,0,result[i][0])
 table.write(i,1,result[i][1])
 table.write(i,2,result[i][2])
 file.save('result.xls')

到此这篇关于用python-webdriver实现自动填表的示例代码的文章就介绍到这了,更多相关python webdriver 自动填表内容请搜索乐虎体育以前的文章或继续浏览下面的相关文章希望大家以后多多支持乐虎体育!

标签:

用python-webdriver实现自动填表的示例代码的更多相关文章

  1. Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

    下载代码Cookie池(这里主要是微博登录,也可以自己配置置其他的站点网址)下载代码GitHub:https://github.com/Python3WebSpider/CookiesPool下载安装过后注意看网页下面的相关基础配置和操作!!!!!!!!!!!!!自己的设置主要有下面几步:1、配置其......

  2. pandas 颠倒列顺序的两种解决方案

    在数据预处理过程中可能需要将列的顺序颠倒,有两种方法。import numpy as npimport pandas as pddf = pd.DataFrame(np.array(range(20)).reshape(4,5))print(df)原始dataframe如下:0 1 2 3 ......

  3. Python 日志打印之logging.getLogger源码分析

    日志打印之logging.getLogger源码分析日志打印之logging.getLogger源码分析By:授客 QQ:1033553122 #实践环境WIN 10Python 3.6.5#函数说明logging.getLogger(name=None)getLogger函数位于logging/_......

  4. 用OpenCV进行年龄和性别检测的实现示例

    本文主要介绍了用OpenCV进行年龄和性别检测的实现示例,分享给大家,具体如下:在本文中,我将带您完成用 Python 进行机器学习的年龄和性别检测的任务。年龄和性别检测属于计算机视觉的范畴,因此我将在Python中使用OpenCV库。在开始使用Python进行年龄和性别检测任务之前,我将首先带您了......

  5. 使用Python访问并下载网页内容的代码

    [Python]代码#!/usr/local/bin/python3.2import urllib.request,io,os,sysreq = urllib.request.Request("http://www.google.com")f = urllib.request.u......

  6. Python利用socket模块开发简单的端口扫描工具的实现

    一、socket1.简介Socket又称"套接字",应用程序通常通过"套接字"向网络发出请求或者应答网络请求,使主机间或者一台计算机上的进程间可以通讯。socket的工作流程socket 采用C/S 模式,分为服务端和客户端服务端数据处理流程创建socket ......

  7. Python获取上一个月的天数

    [Python]代码#简单小程序from datetime import datetimeimport calendardef getMonths():d = datetime.now()c = calendar.Calendar()year = d.yearmonth = d.monthif mo......

  8. 浅析python字符串前加r、f、u、l 的区别

    先给大家介绍下Python 字符串前面加u,r,b,f的含义(字符串前缀)1、字符串前加 u例:u"我是含有中文字符组成的字符串。"作用:后面字符串以 Unicode 格式 进行编码,一般用在中文字符串前面,防止因为源码储存格式问题,导致再次使用时出现乱码。2、字符串前加 r例:......

  9. 如何查看python关键字

    现在我们就来讲讲关键字吧,准备好开始记笔记了吧,俗话说得好,好记性不如烂笔头,记好了喔,经常听大家提起关于Python中关键词有多少个?实际上Python中关键词目前有31个,想要具体查看以及观察个数的方式非常简单,下面就为大家详细介绍。1、keyword模块进行输出查看Help on module......

  10. python 爬虫

    学习python就一直想做爬虫的东西,还要继续学 理论上的东西一要加强 #!/usr/bin/python#coding=utf-8import urllibimport redef getHtml(url): page = urllib.urlopen(u......

随机推荐

  1. [Java基础]——String类

    此篇博客主要整理Java中的String类的使用。一、String1.1 String 的定义上图是jdk中对String类的定义,得到的信息有:①、String类声明为final的,不可被继承。②、String类实现了Serializable接口,表示字符串是支持序列化的(IO流中使用)。实......

  2. Vue单页面应用中的Markdown渲染

    之前渲染 Markdown 的时候, 笔者使用的是 mavonEditor 的预览模式, 使用起来比较爽, 只需要引入组件即可, 但是在最近的开发中, 遇到了困难.主要问题在于作为单页面应用, 站内链接必须是使用 router-link 跳转, 如果使用 mavonEditor 默认渲染的 a 标签......

  3. php结合GD库实现中文验证码的简单方法

    前言上一次写了一个常见的验证码,现在玩一下中文的验证码,顺便升级一下写的代码流程基本差不多先看GD库开启了没生成中文5位验证码开始画图画干扰素生成图形完事生成中文验证码?1234567891011//小小心机$hanzi= "如果觉得写得还可以的话互相关注报团取暖交流经验来自合肥的小码农巴......

  4. Python魔法函数与两比特量子系统模拟

    结合Python的魔法函数特性,可以对类和类进行特殊的操作,从本质上说这也是一种模块化封装的手段。另一方面我们结合量子计算模拟这一实际科学问题,通过做一个简单的小项目,可以加深对Python魔法函数的理解。技术背景本文主要涵盖两个领域的知识点:python的魔法函数和量子计算模拟,我们可以通过一个实......

  5. jquery文本框内容改变事件

    /** * 内容改变时并不会触发事件,但是在失去焦点的时候会触发。*/$("#inputid").change(function(){ console.log($(this).val());});/** * 只要文本类容发生改变,就会触发该事件 */$("#inp......

  6. js简单粗暴的发布订阅示例代码

    什么是发布/订阅?我打个比方,你去某个门店买衣服,你和门店店长相互并不认识,门店店长只管卖他的衣服,并不关心是谁来买,而你也只管买你想要的衣服,并不关心是哪个门店在卖,这时,门店和你就组成了一个发布/订阅的关系。当门店挂出衣服款式,你去找你想要的衣服,如果找到了,那就买下来,如果没找到,那就离开这家......

  7. 使用CSS的clip-path实现图片剪切效果

    最近有个业务需求:校对图片文本信息,如下图所示,当鼠标点击文本中某一行的时候,文本上会显示对应行图片同时左侧会显示对应位置的画框。clip-path今天要说的主题是:如何剪切原图中的部分图片?(前提是后端已经传给了我们对应行在图片上的位置)面对这种需求有多种解决方案,可以用canvas的drawIm......

  8. java UDP实现一个聊天工具的示例代码

    题目:假设Tom和Jerry利用Java UDP进行聊天,请为他们编写程序。具体如下:(1)、Tom和Jerry聊天的双方都应该具有发送端和接收端;(2)、利用DatagramSocket与DatagramPacket;(3)、实现 java.lang.Runnable类,重写 run()方法。学过......

  9. ASP.NET Core中如何实现重定向详解

    前言ASP.NET Core 是一个跨平台,开源的,轻量级的,模块化的,用于构建高性能的 web 开发框架, ASP.NET Core MVC 内置了多种方式将一个 request 请求跳转到指定的url,这篇文章我们就来讨论如何去实现。理解 RedirectActionResultASP.NET ......

  10. ASP.NET Core 5.0 MVC中的 Razor 页面 介绍

    Razor 是一个用于将基于服务器的代码嵌入到网页中的标记语法。 Razor语法由 Razor 标记、c # 和 HTML 组成。 通常包含 Razor 的文件的扩展名 cshtmlRazor 语法Razor 支持 c #,并使用 @ 符号从 HTML 转换为 c #。 Razor 计算 c # 表......