首页 > 编程语言 >如何用python“优雅的”调用有道翻译

如何用python“优雅的”调用有道翻译

时间:2023-01-01 11:00:59浏览次数:68  
标签:加密 python 有道 优雅 dict str print salt md5


文章目录

  • ​​前言​​
  • ​​分析​​
  • ​​分析url​​
  • ​​分析参数01​​
  • ​​分析参数02​​
  • ​​加密分析​​
  • ​​模拟请求​​
  • ​​注意点​​
  • ​​请求代码​​
  • ​​执行结果​​
  • ​​结语​​

前言

其实在以前就盯上​​有道翻译了​​的,但是由于时间问题一直没有研究(我的骚操作还在后面,记得关注),本文主要讲解如何用python调用有道翻译,讲解这个爬虫与有道翻译的js“​​斗争​​”的过程!

项目github地址:https://github.com/javasmall/python

如何用python“优雅的”调用有道翻译_python

分析

对于一个网站,首先肯定要的就是分析,分析其中的网页规则

分析url

进入有道翻译你会发现它的url是没有变化的,也就是说它的请求是通过ajax异步交互的。点击F12,很容易在XHR中找到这个交互的请求,点击查看信息,你会发现一串参数,其中有几个还是加密了的,啥salt盐啥的。先有个数。

如何用python“优雅的”调用有道翻译_有道翻译_02

分析参数01

可以大胆猜测:这个关键参数肯定在一块。我们搜索​​salt​​​,然后正常的点击,格式化展开,在js中再次搜索​​salt​​。想找相关salt附近看看能不能找到断点进行调试!当然,最终你可以找到11个相关内容可以在每个附近进行断点调试。你这样乐意找到相关位置关键加密字段和函数。

如何用python“优雅的”调用有道翻译_爬虫_03


如何用python“优雅的”调用有道翻译_python_04


如何用python“优雅的”调用有道翻译_有道翻译_05

分析参数02

这次,咱们使用浏览器调用堆栈的功能,查看js执行的堆栈进行查找。直接点击到对应模块打断点即可进行观察。最终你会找到这个位置​​generateSaltSign(n)​​的这个函数,主要加密函数都在里面执行

如何用python“优雅的”调用有道翻译_爬虫_06


如何用python“优雅的”调用有道翻译_json_07

加密分析

其实有道翻译的加密是比较简单的了,你一看,

  • 不知道​​navigator.appVersion​​是啥是吧,我打印一看。就是浏览器头进行md5加密的嘛,可以固定不变的,也就是说这个​​bv(t)​​参数它可以是固定不变的。
  • 这个​​ts​​不就是13位当前时间戳吗!
  • 这个​​salt​​不就是时间戳后面加上100内的随机数吗,随便取一个就行。
  • 这个​​sign​​​不就是​​"fanyideskweb" + 翻译的字符串 + salt + "n%A-rKaT5fb[Gy?;N5@Tj"​​这么一串串数字然后md5加密的嘛!

通过后面的分析发现这些参数并没有变化。所以这次生成的是唯一的,但是有一个前提是5000字以内,如果超出5000字他会截取前5000字,这点需要注意一下。

如何用python“优雅的”调用有道翻译_json_08

模拟请求

注意点

既然有了上面的规则,那么咱们就可以通过这部分的规则和抓包的信息整合用python模拟完成js的事件,发送请求。这里面有几点需要注意的。

  • Fristly,你要搞定python中​​md5加密模块​​​,​​时间time模块​​​,能够做出一些等价的一些转化。刚好,py的​​hashlib​​​和​​time​​模块 can fullfill 你。这个问题解决。
  • In addition,post请求的主体data字典需要进行url编码才能当成data发送请求发过去。
  • last but not least,解决完加密最重要的就是​​header​​,大家一定不要麻大意。这个content—length,经过我的经验告诉我它如果填错了就会报错,并且不填经过抓包分析系统会自动生成。所以不要计算主体长度的,这个参数一定要省略不放cookie会报错,放了cookie经过测试你会发现有些可以该甚至可有可无,有些必须遵从其样式。而cookie中必须遵从的就是​[email protected]​​即​​数字+@+ip形式地址​​。可能是为了检验而用,这个可以直接进行模拟。

如何用python“优雅的”调用有道翻译_有道翻译_09

请求代码

返回结果是一串json,直接拿即可!

import requests
import hashlib
import time
import urllib.parse
# 创建md5对象
def nmd5(str):
m = hashlib.md5()
# Tips
# 此处必须encode
# 若写法为m.update(str) 报错为: Unicode-objects must be encoded before hashing
# 因为python3里默认的str是unicode
# 或者 b = bytes(str, encoding='utf-8'),作用相同,都是encode为bytes
b = str.encode(encoding='utf-8')
m.update(b)
str_md5 = m.hexdigest()
return str_md5
def formdata(transtr):
# 待加密信息
headerstr = '5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
#print(round(time.time()*1000))
bv=nmd5(headerstr)
ts=str(round(time.time()*1000))
salt=ts+'90'
strexample='fanyideskweb'+transtr+salt+'n%A-rKaT5fb[Gy?;N5@Tj'
sign=nmd5(strexample)
#print(sign)
i=len(transtr)
#print(i)
# print('MD5加密前为 :' + headerstr)
# print('MD5加密后为 :' + bv)
dict={'i':transtr,'from':'AUTO','TO':'AUTO','smartresult': 'dict',
'client':'fanyideskweb',
'salt':salt,
'sign':sign,
'ts':ts,
'bv':bv,
'doctype':'json',
'version':'2.1',
'keyfrom':'fanyi.web',
'action':'FY_BY_REALTlME'
}
return dict


url='http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
'Referer':'http://fanyi.youdao.com/',
'Origin': 'http://fanyi.youdao.com',
'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
'X-Requested-With':'XMLHttpRequest',
'Accept':'application/json, text/javascript, */*; q=0.01',
'Accept-Encoding':'gzip, deflate',
'Accept-Language':'zh-CN,zh;q=0.9',
'Connection': 'keep-alive',
'Host': 'fanyi.youdao.com',
'cookie':'_ntes_nnid=937f1c788f1e087cf91d616319dc536a,1564395185984; OUTFOX_SEARCH_USER_ID_NCOO=; [email protected]; JSESSIONID=; ___rl__test__cookies=1'
}
input=input("请输入翻译内容:")
dict=formdata(input)
dict=urllib.parse.urlencode(dict)
dict=str(dict)
#dict=urllib.parse.urlencode(dict).encode('utf-8')

req=requests.post(url,data=dict,headers=header)
val=req.json()
print(val['translateResult'][0][0]['tgt'])
执行结果

如何用python“优雅的”调用有道翻译_json_10

结语

就这样,我们从0开始​​优雅​​​的揭开有道翻译的面纱!你可以利用这个做一些有趣的事情(​​待续​​------)

当然,这个可能难度不大,对于老鸟老说很简单(勿喷),但是对于新手来说特别适合练手,如果感觉有问题或者不理解的可以通过公众号交流!当然,这个代码不知道能保存多久会失效。所以请抓紧收藏尝试!如果感觉可以还请奉献爱心点点赞!当然,这个只是我脑洞的一个开端,好玩的还在后面!

​项目和爬虫仓库github地址​​,欢迎star和fork!

欢迎关注一波公众号:​​bigsai​​ 一起学习,一起进步!长期分享更多乐趣!



标签:加密,python,有道,优雅,dict,str,print,salt,md5
From: https://blog.51cto.com/u_14983647/5982836

相关文章

  • java:使用supervisor优雅的管理SpringBoot进程
    (目录)1、创建SpringBoot项目通过https://start.spring.io/创建一个SpringBoot项目项目结构$tree-Itarget.├──pom.xml└──src├──main......
  • [python] 基于paramiko库操作远程服务器
    SSH(SecureShell)是一种网络安全协议,能够使两台计算机安全地通信和共享数据。目前,SSH协议已在世界各地广泛使用,大多数设备都支持SSH功能。SSH的进一步说明见:深入了解SSH。SS......
  • python编程 ——从入门到实践——第四章,操作列表
    1、遍历列表——for循环的基本形式magicians=['alice','david','carolina']forainmagicians:#for循环会读取列表中的第一个字符串,然后和a对应,再打印,然后再读取第......
  • Python之路【第七篇】:线程、进程和协程
    1.Python线程Threading用于提供线程相关的操作,线程是应用程序中工作的最小单元。#!/usr/bin/envpython#-*-coding:utf-8-*-importthreadingimporttime......
  • Python面向对象原理分析-元类MetaClass
    metaclass元类1.前戏对象是类实例化的结果classFoo(object):pass#第1步:调用Foo的__new__方法创建空对象。#第2步:调用Foo的__init__方法对对象进行初始化。o......
  • Python之路【第六篇】:socket
    1.Socketsocket通常也称作"套接字",用于描述IP地址和端口,是一个通信链的句柄,应用程序通常通过"套接字"向网络发出请求或者应答网络请求。socket起源于Unix,而Unix/Lin......
  • Python爬虫学习经历
    requests模块1.处理一个UA反爬importrequestscontent=input("请输入你要搜索的内容:")url=f"https://www.sogou.com/web?query={content}"headers={#添加......
  • 掌握Python中列表生成式的五个原因
    1.引言在Python中我们往往使用列表生成式来代替for循环,本文通过引入实际例子,来阐述这背后的原因。闲话少说,我们直接开始吧!2.简洁性列表生成式允许我们在一行代码中创建一......
  • Python__19--函数调用的参数传递与变量的作用域
    1函数调用的参数传递形参(形式参数):在函数定义的时候用到的参数没有具体值,只是一个占位的符号,成为形参;实参(实际参数):在调用函数的时候输入的值。实际参数和形式参......
  • pycharm配置python环境
    打开pycharm,找到settings中的pythoninterpreter点击addinterpreter,addlocalinterpreter选择python安装路径就可以了......