传递参数解决方法澳门网上正规赌场网址,python基础知识总结

   
一次坑爹的小bug。读取一段文字(编码utf-8),想替换掉空格,str_replace(”
“..)、preg_replace(“/\s/”..)都不起作用。

十六进制值 1. + URL 中+号表示空格 %2B

python基础知识总结

澳门网上正规赌场网址 1

python有段时间没用了,实在是惭愧啊,屌丝今天决定开始对python基础知识重新进行总结,以慰自心。

一.python概念

  1. Python是著名的“龟叔”Guido van
    Rossum在1989年圣诞节期间,为了打发无聊的圣诞节而编写的一个编程语言。

  2. python定位“优雅”,“简单”,“明确”

二.python安装

三.python基础

1.输入输出

输入输出input/output,简称I/O

输出:

print语句也可以跟上多个字符串,用逗号“,”隔开,就可以连成一串输出,逗号在print语句里面看做空格,print可以输出整数和进行运算输出结果

输入:

raw_input:输入值并存放到变量里面

变量相信不需要多说了

2.数据类型

整数:

Python可以处理任意大小的整数,当然包括负整数,在程序中的表示方法和数学上的写法一模一样,例如:1100-80800,等等。

计算机由于使用二进制,所以,有时候用十六进制表示整数比较方便,十六进制用0x前缀和0-9,a-f表示,例如:0xff000xa5b4c3d2,等等。

浮点数:

浮点数也就是小数,之所以称为浮点数,是因为按照科学记数法表示时,一个浮点数的小数点位置是可变的,比如,1.23×109和12.3×108是相等的。浮点数可以用数学写法,如1.233.14-9.01,等等。但是对于很大或很小的浮点数,就必须用科学计数法表示,把10用e替代,1.23×109就是1.23e9,或者12.3e8,0.000012可以写成1.2e-5,等等。

整数和浮点数在计算机内部存储的方式是不同的,整数运算永远是精确的(除法难道也是精确的?是的!),而浮点数运算则可能会有四舍五入的误差。

字符串:

字符串是以”或””括起来的任意文本,比如'abc'"xyz"等等。请注意,”或””本身只是一种表示方式,不是字符串的一部分,因此,字符串'abc'只有abc这3个字符。如果'本身也是一个字符,那就可以用””括起来,比如"I'm OK"包含的字符是I'm,空格,OK这6个字符。

如果字符串内部既包含’又包含”怎么办?可以用转义字符\来标识,比如:转义字符\可以转义很多字符,比如\n表示换行,\t表示制表符,字符\本身也要转义,所以\\表示的字符就是\

如果字符串里面有很多字符都需要转义,就需要加很多\,为了简化,Python还允许用r”表示”内部的字符串默认不转义

如果字符串内部有很多换行,用\n写在一行里不好阅读,为了简化,Python允许用”’…”’的格式表示多行内容。

布尔值:

布尔值和布尔代数的表示一致。布尔值只有True或者False两种值,python可以用True
或 False表示布尔值,注意大小写,也可以通过布尔运算,比如:

>>> True

True

>>> False

False

>>> 3 > 2

True

>>> 3 > 5

False

布尔值可以用and or not
来运算,and是与运算,都是True才会是True,or是或运算,有一个True就为True,not是单目运算符,表示非运算True变False,False变True。

布尔值一般用在条件判断中

空值:

空值是Python里一个特殊的值,用None表示。None不能理解为0,因为0是有意义的,而None是一个特殊的空值。

python还有列表,元组,字典,还有自定义数据类型,后面一一整理道来

变量:

大小写英文字母,数字,_下划线且不能以数字开头,可以表示各种数据类型

动态语言:变量本身类型不固定的称为动态语言,反之就是静态语言,如java,声明时必须指定类型

a=’aaa’

表示在内存中创建aaa字符串,在内存中创建a变量,并将a变量指向aaa

a=b

表示将a变量指向b变量的值

常量:

不能变的变量,例如PI,python中没有机制表示常量不能变,一般习惯用大写字母来表示常量

3.字符串和编码

字符串是一种数据类型,字符串有一个问题就是编码问题,计算机只能处理数字,要处理文本,必须将文本用数字来表示,这样就有了编码,而计算机是由美国人发明的,英文可以用一个字节表示,最早只有127个字符被编码到计算机,这个编码表称为ASCII码,但处理中文一个字节不够,至少需要两个字节,而且还不能和ASCII码冲突,所以,中国制定了GB2312码

全世界语言那么多,各国有各国的标准,不可避免的会有冲突,unicode就这样产生了,unicode通常是两个字节,非常偏僻的字才用更多字节,ASCII码前面补0就是unicode码了

用unicode码也有问题,虽然统一用unicode编码乱码问题解决了,但是占用空间大了,这样就有了可变长编码utf-8

utf-8将一个unicode字符根据不同数字大小编码成1-6个字节,常用的英文字母编码为一个字节,汉字通常三个字节,很生僻的字符才会编码成4-6个字节,如果用于大量英文,utf-8可以节省很多空间。UTF-8还一个好处就是ASCII码实际可以看做utf-8的一部分,大量支持ASCII码的历史遗留软件可以在utf-8编码下继续工作。

搞清楚了ASCII、Unicode和UTF-8的关系,我们就可以总结一下现在计算机系统通用的字符编码工作方式:

在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。

用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件

浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器,所以你看到很多网页的源码上会有类似<meta
charset=”UTF-8″ />的信息,表示该网页正是用的UTF-8编码。

4.python字符串

python诞生比unicode早,所以最早的python只支持ASCII码,字母和数字对应,python提供了ord()和chr()函数将字母和相应的数字兑换,python后来添加了对unicode支持,unicode字符串表示u’…’,’…’可以看做utf-8编码或者ASCII编码,但是u’…’只能看做unicode编码,英文表示的unicode编码和utf-8编码一样,但是占用的空间不同,而中文字符转换后一个unicode字符将变为三个utf-8字符,len()函数返回字符串长度,将utf-8字符转换为unicode字符,用decode(‘utf-8’),python源码也是一个文本文件,一般保存为utf-8,#coding
utf-8

5.格式化

最常见的是输出格式化的字符串,python的格式化和c语言一致,%s用字符串替换,%d用整数替换,如果只有一个%?,括号可以省略,

常见的占位符:

%s 字符串

%d整数

%f 浮点数

%x 十六进制整数

记住:格式化整数和浮点数可以指定是否补0和整数和小数的位数

>>>'%2d-%02d'%(3,1)'3-01'>>>'%.2f'%3.1415926'3.14'

如果你不确定用什么,%s可以将任何数据类型转换为字符串

>>>'Age:%s.Gender:%s'%(25,True)'Age:25.Gender:True'

对于unicode字符,用法完全一样,但最好确保替换的字符串也是unicode字符串

>>>u'Hi,%s'%u'Michael'u'Hi,Michael'

如果字符串的%也是一个普通字符,这就需要转义,%%表示%

待续。。。

python有段时间没用了,实在是惭愧啊,屌丝今天决定开始对python基础知识重新进行总结,以慰自心。
一.python概念 Pytho…

<?php

// 替换<p>后4个空格
$str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089");
$str = str_replace(" ", "-", $str);
$str = preg_replace("/\s/", "-", $str);
echo $str;  // 不起作用
  1. 空格 URL中的空格可以用+号或者编码 %20
  2. / 分隔目录和子目录 %2F
  3. ? 分隔实际的 URL 和参数 %3F
  4. % 指定特殊字符 %25
  5. # 表示书签 %23
  6. & URL 中指定的参数间的分隔符 %26
  7. = URL 中指定参数的值 %3D

  没办法,将替换不了的空格ord()下才看到,这个utf-8空格比较特殊。ASCII
194 + 160出来的。

解决的方法:
replace() 方法如果直接用str.replace(“-“,”!”) 只会替换第一个匹配的字符.
而str.replace(/\-/g,”!”)则可以替换掉全部匹配的字符(g为全局标志)。
replace()
js中替换字符变量如下:

<?php

// 替换<p>后4个空格
$str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089");
$str = str_replace(chr(194) . chr(160), "-", $str);  // 解决方法
echo $str;  // OK

 data2=data2.replace(/\%/g,”%25″);
 data2=data2.replace(/\#/g,”%23″);
 data2=data2.replace(/\&/g,”%26″);

  实验下这个空格。

其他一些资料。。。仅供参考。。。

<?php

// utf-8无bom文件下,四个空格
$s1 = chr(194) . chr(160);
$s2 = chr(32);
$s3 = " ";
$s4 = " ";  // 全角空格
$s = $s1 . $s2 . $s3 . $s4;

// 判断
$r  = '';
if ($s1 == $s2) $r .= 1;
if ($s1 == $s3) $r .= 2;
if ($s1 == $s4) $r .= 3;
if ($s2 == $s3) $r .= 4;
if ($s2 == $s4) $r .= 5;
if ($s3 == $s4) $r .= 6;

// 结果
echo $s, "#####", $r, "####", str_replace(" ", "-", $s), "####", preg_replace("/\s/", "-", $s);

在使用url进行参数传递时,经常会传递一些中文名(或含有特殊字符)的参数或URL地址,在后台处理时会发生转换错误。在有些传递页面使用GB2312,而在接收页面使用UTF8,这样接收到的参数就可能会与原来发生不一致。使用服务器端的urlEncode函数编码的URL,与使用客户端java的encodeURI函数编码的URL,结果就不一样。

  结果:为方便书写,|代表空格,|代表全角空格。

java对文字进行编码涉及3个函数:escape,encodeURI,encodeURIComponent,相应3个解码函数:unescape,decodeURI,decodeURIComponent

  ||||####4####|–|####|–|

java中的编码方法:
escape() 方法:采用ISO
Latin字符集对指定的字符串进行编码。所有的空格符、标点符号、特殊字符以及其他非ASCII字符都将被转化成%xx格式的字符编码(xx等于该字符在字符集表里面的编码的16进制数字)。比如,空格符对应的编码是%20。unescape方法与此相反。不会被此方法编码的字符:
@ * / +

  改下浏览器编码为gbk,结果:聽
銆€#####4####聽–銆€####聽–銆€

encodeURI()方法:把URI字符串采用UTF-8编码格式转化成escape格式的字符串。不会被此方法编码的字符:!
@ # $& * ( ) = : / ; ? + ‘

 

encodeURIComponent
()方法:把URI字符串采用UTF-8编码格式转化成escape格式的字符串。与encodeURI()相比,这个方法将对更多的字符进行编码,比如
/
等字符。所以如果字符串里面包含了URI的几个部分的话,不能用这个方法来进行编码,否则
/ 字符被编码之后URL将显示错误。不会被此方法编码的字符:! * ( )

  问题的根源,在于UTF-8这种编码里面,存在一个特殊的字符,其编码是“0xC2
0xA0”(194
160),转换成字符的时候,表现为一个空格,跟一般的半角空格(ASCII
0x20)一样,唯一的不同是它的宽度不会被压缩,因此比较多的被用于网页排版(如首行缩进之类)。而其他的编码方式如GB2312、Unicode之类并没有这样的字符。

因此,对于中文字符串来说,如果不希望把字符串编码格式转化成UTF-8格式的(比如原页面和目标页面的charset是一致的时候),只需要使用
escape。如果你的页面是GB2312或者其他的编码,而接受参数的页面是UTF-8编码的,就要采用encodeURI或者
encodeURIComponent。

  总结下来就是:替换不了的字符,打印出ASCII码来总能替换掉吧。

另外,encodeURI/encodeURIComponent是在java1.5之后引进的,escape则在java1.0版本就有。
1、 
传递参数时需要使用encodeURIComponent,这样组合的url才不会被#等特殊字符截断。

 

   例如:< language=”java”>write(‘<a
href=”;

参考:解决采集UTF-8网页空格变成问号乱码  诡异的UTF8空格

2、  进行url跳转时可以整体使用encodeURI

例如:Location.href=encodeURI(“”);

3、  js使用数据时可以使用escape

例如:搜藏中history纪录。

4、 
escape对0-255以外的unicode值进行编码时输出%u****格式,其它情况下escape,encodeURI,encodeURIComponent编码结果相同。

最多使用的应为encodeURIComponent,它是将中文、韩文等特殊字符转换成utf-8格式的url编码,所以如果给后台传递参数需要使用encodeURIComponent时需要后台解码对utf-8支持(form中的编码方式和当前页面编码方式相同)

escape不编码字符有69个:*,+,-,.

1. + URL 中+号表示空格 %2B 2. 空格
URL中的空格可以用+号或者编码 %20 3. / 分隔目录和子目录 %2F 4. ?
分隔实际的 URL 和参数 %3F 5….

Post Author: admin

发表评论

电子邮件地址不会被公开。 必填项已用*标注