如何往mongodb存python set

如何往mongodb存python set,第1张

下载python中MongoDB的驱动程序

pip install pymongo

然后确保MongoDB已经安装且可以正常运行,去官网下载相应版本:https://www.mongodb.com/

mkdir -p /home/tools

cd/home/tools

wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.4.2.tgz

解压文件并修改目录名

tar -zxvf mongodb-linux-x86_64-3.4.2.tgz

mv mongodb-linux-x86_64-3.4.2 mongodb3.4.2

ln -s mongodb_3.4.2 mongodb

MongoDB 的可执行文件位于 bin 目录下,所以可以将其添加到 PATH 路径中

export PATH=/home/tools/mongodb/bin:$PATH

MongoDB的数据存储在data目录的db目录下,但是这个目录在安装过程不会自动创建,所以你需要手动创建data目录,并在data目录中创建db目录。

mkdir -p /data/db

在mongo安装目录中的bin目录执行mongod命令来启动mongdb服务

./mongod --dbpath /data/db

如果想进入MongoDB后台管理

./mongo

# ./mongoMongoDB shell version v3.4.2connecting to: mongodb://127.0.0.1:27017MongoDB server version: 3.4.2Welcome to the MongoDB shell......................

times number of files.2017-03-12T01:15:04.901+0800 I CONTROL  [initandlisten]

>

使用用户 admin 使用密码 123456 连接到本地的 MongoDB 服务上

>mongodb://admin:123456@localhost/...

创建数据库(如果数据库不存在,则创建数据库,否则切换到指定数据库)

... use test2017-03-12T01:34:04.361+0800 E QUERY    [thread1] SyntaxError: missing before statement @(shell):3:4

>use test

switched to db test>db

test>show dbs    #查看所有数据库admin  0.000GB

local  0.000GB

python *** 作mongodb

连接mongodb

#!/usr/bin/env python# -*- coding:utf-8 -*-from pymongo import MongoClient

conn = MongoClient('192.168.0.113', 27017)

db = conn.mydb  #连接mydb数据库,没有则自动创建my_set = db.test_set#使用test_set集合,没有则自动创建

插入数据(insert插入一个列表多条数据不用遍历,效率高, save需要遍历列表,一个个插入)

my_set.insert({"name":"zhangsan","age":18})#或my_set.save({"name":"zhangsan","age":18})

插入多条

#添加多条数据到集合中users=[{"name":"zhangsan","age":18},{"name":"lisi","age":20}]  

my_set.insert(users)

#或my_set.save(users)

查询数据(查询不到则返回None)

#查询全部for i in my_set.find():    print(i)#查询name=zhangsan的for i in my_set.find({"name":"zhangsan"}):    print(i)print(my_set.find_one({"name":"zhangsan"}))

更新数据

my_set.update(   <query>,    #查询条件

<update>,    #update的对象和一些更新的 *** 作符   {

upsert: <boolean>,    #如果不存在update的记录,是否插入

multi: <boolean>,        #可选,mongodb 默认是false,只更新找到的第一条记录

writeConcern: <document>   #可选,抛出异常的级别。   }

)

把上面插入的数据内的age改为20

my_set.update({"name":"zhangsan"},{'$set':{"age":20}})

删除数据

my_set.remove(   <query>,    #(可选)删除的文档的条件   {

justOne: <boolean>,    #(可选)如果设为 true 或 1,则只删除一个文档

writeConcern: <document>   #(可选)抛出异常的级别   }

)

#删除name=lisi的全部记录my_set.remove({'name': 'zhangsan'})#删除name=lisi的某个id的记录id = my_set.find_one({"name":"zhangsan"})["_id"]

my_set.remove(id)#删除集合里的所有记录db.users.remove() 

mongodb的条件 *** 作符

#    (>)  大于 - $gt#    (<)  小于 - $lt#    (>=)  大于等于 - $gte#    (<= )  小于等于 - $lte

#例:查询集合中age大于25的所有记录for i in my_set.find({"age":{"$gt":25}}):    print(i)

type(判断类型)

#找出name的类型是String的for i in my_set.find({'name':{'$type':2}}):    print(i)

类型队对照列表

排序

在MongoDB中使用sort()方法对数据进行排序,sort()方法可以通过参数指定排序的字段,并使用 1 和 -1 来指定排序的方式,其中 1 为升序,-1为降序。

for i in my_set.find().sort([("age",1)]):    print(i)

limit和skip

#limit()方法用来读取指定数量的数据#skip()方法用来跳过指定数量的数据#下面表示跳过两条数据后读取6条for i in my_set.find().skip(2).limit(6):    print(i)

IN

#找出age是20、30、35的数据for i in my_set.find({"age":{"$in":(20,30,35)}}):    print(i)

OR

#找出age是20或35的记录for i in my_set.find({"$or":[{"age":20},{"age":35}]}):    print(i)

all

'''dic = {"name":"lisi","age":18,"li":[1,2,3]}

dic2 = {"name":"zhangsan","age":18,"li":[1,2,3,4,5,6]}

my_set.insert(dic)

my_set.insert(dic2)'''for i in my_set.find({'li':{'$all':[1,2,3,4]}}):    print(i)#查看是否包含全部条件#输出:{'_id': ObjectId('58c503b94fc9d44624f7b108'), 'name': 'zhangsan', 'age': 18, 'li': [1, 2, 3, 4, 5, 6]}

push/pushAl

my_set.update({'name':"lisi"}, {'$push':{'li':4}})for i in my_set.find({'name':"lisi"}):    print(i)#输出:{'li': [1, 2, 3, 4], '_id': ObjectId('58c50d784fc9d44ad8f2e803'), 'age': 18, 'name': 'lisi'}my_set.update({'name':"lisi"}, {'$pushAll':{'li':[4,5]}})for i in my_set.find({'name':"lisi"}):    print(i)#输出:{'li': [1, 2, 3, 4, 4, 5], 'name': 'lisi', 'age': 18, '_id': ObjectId('58c50d784fc9d44ad8f2e803')}

pop/pull/pullAll

#pop#移除最后一个元素(-1为移除第一个)my_set.update({'name':"lisi"}, {'$pop':{'li':1}})for i in my_set.find({'name':"lisi"}):    print(i)#输出:{'_id': ObjectId('58c50d784fc9d44ad8f2e803'), 'age': 18, 'name': 'lisi', 'li': [1, 2, 3, 4, 4]}#pull (按值移除)#移除3my_set.update({'name':"lisi"}, {'$pop':{'li':3}})#pullAll (移除全部符合条件的)my_set.update({'name':"lisi"}, {'$pullAll':{'li':[1,2,3]}})for i in my_set.find({'name':"lisi"}):    print(i)#输出:{'name': 'lisi', '_id': ObjectId('58c50d784fc9d44ad8f2e803'), 'li': [4, 4], 'age': 18}

多级路径元素 *** 作

先插入一条数据

dic = {"name":"zhangsan",       "age":18,       "contact" : {           "email" : "1234567@qq.com",           "iphone" : "11223344"}

}

my_set.insert(dic)

#多级目录用. 连接for i in my_set.find({"contact.iphone":"11223344"}):    print(i)#输出:{'name': 'zhangsan', '_id': ObjectId('58c4f99c4fc9d42e0022c3b6'), 'age': 18, 'contact': {'email': '1234567@qq.com', 'iphone': '11223344'}}result = my_set.find_one({"contact.iphone":"11223344"})print(result["contact"]["email"])#输出:1234567@qq.com#多级路径下修改 *** 作result = my_set.update({"contact.iphone":"11223344"},{"$set":{"contact.email":"9999999@qq.com"}})

result1 = my_set.find_one({"contact.iphone":"11223344"})print(result1["contact"]["email"])#输出:9999999@qq.com

还可以对数组用索引 *** 作

dic = {"name":"lisi",       "age":18,       "contact" : [

{           "email" : "111111@qq.com",           "iphone" : "111"},

{           "email" : "222222@qq.com",           "iphone" : "222"}

]}

my_set.insert(dic)

#查询result1 = my_set.find_one({"contact.1.iphone":"222"})print(result1)#输出:{'age': 18, '_id': ObjectId('58c4ff574fc9d43844423db2'), 'name': 'lisi', 'contact': [{'iphone': '111', 'email': '111111@qq.com'}, {'iphone': '222', 'email': '222222@qq.com'}]}#修改result = my_set.update({"contact.1.iphone":"222"},{"$set":{"contact.1.email":"222222@qq.com"}})print(result1["contact"][1]["email"])#输出:222222@qq.com

请求库:

1. requests 这个库是爬虫最常用的一个库

2. Selenium Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等 *** 作 对于一些用JS做谊染的页面来说,这种抓取方式是非常有效的。

3.ChomeDrive 安装了这个库,才能驱动Chrome浏览器完成相应的 *** 作

4.GeckoDriver 使用W3C WebDriver兼容客户端与基于Gecko的浏览器进行交互的代理。

5.PhantomJS PhantomJS 是一个无界面 、可脚本编程的 WebKit 浏览器引擎,它原生支持多种Web标准:Dom *** 作,css选择器,json,Canvas以及SVG。

6.aiohttp 之前接收requests库是一个阻塞式HTTP请求库,当我们发送一个请求后。程序会一直等待服务器响应,直到服务器响应后,程序才会最下一步处理。其实,这个过程比较耗时间。如果程序可以在等待的过程中做一些其他的事情,如进行请求的调度,响应的处理等,那么爬虫的效率就会比之前的那种方式有很大的提升。 而aiohttp就是这样一个提供异步web服务的库。使用说这个库用起来还是相当方便的。

解析库:

1.lxml lxml是python的一个解析库,这个库支持HTML和xml的解析,支持XPath的解析方式,而且效率也是非常高的,深受广大程序员的热爱

2.Beautiful Soup Beautiful Soup也是python里一个HTML或XMl的解析库,它可以很方便的懂网页中提取数据,拥有强大的API和多种解析方式。

3.pyquery 同样是一个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析HTML 文梢,

数据库:

1.mysql 数据库

2.MongoDB Mo goDB 是由 ++语言编写的非关系型数据库, 是一个基于分布式文件存储的开源数据库系统内容存储形式类似 JSON 对象,它的字段值可以包含其他文档、数组及文档数组,非常灵活

3.Redis 是一个基于 存的高效的非关系型数据库,

存储库:

1.PyMySOL

2.PyMongo

3.redis-py

4.RedisDump

web库:

1.Flask 是一个轻量级的Web服务程序,它简单,易用,灵活

2.Tornado 是一个支持异步的Web框架,通过使用非阻塞I/O流,可以支持成千上万的开放式连接。

就题论题,还包括:

1. Python 数据库连接库,例如MySQL 连接库的应用,这决定你的数据从哪里来。这里面涉及到sql语法和数据库基本知识,是你在学习的时候必须一起学会的。

2. Python 做基本数据计算和预处理的库,包括numpy ,scipy,pandas 这三个用得最多。

3. 数据分析和挖掘库,主要是sklearn,Statsmodels。前者是最广泛的机器学习库,后者是侧重于统计分析的库。(要知道统计分析大多时候和数据挖掘都错不能分开使用)

4. 图形展示库。matpotlib,这是用的最多的了。

说完题主本身 要求,楼上几位说的对,你还需要一些关于数据挖掘算法的基本知识和认知,否则即使你调用相关库得到结果,很可能你都不知道怎么解读,如何优化,甚至在什么场景下还如何选择算法等。因此基本知识你得了解。主要包括:

1.统计学相关,看看深入浅出数据分析和漫画统计学吧,虽然是入门的书籍,但很容易懂。

2.数据挖掘相关,看看数据挖掘导论吧,这是讲算法本身得书。

剩下的就是去实践了。有项目就多参与下项目,看看真正的数据挖掘项目是怎么开展的,流程怎样等。没有项目可以去参加一些数据挖掘或机器学习方面的大赛,也是增加经验得好方法。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/bake/11668769.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-17
下一篇2023-05-17

发表评论

登录后才能评论

评论列表(0条)

    保存