import pymssql
# 配置服务器名称、数据库名称、用户名和密码等必要连接信息,这里需替换成你实际的信息
server_name = '你的服务器名称'
database_name = '你的数据库名称'
user_name = '你的用户名'
password = '你的密码'
# 创建数据库连接对象
conn = pymssql.connect(server=server_name, user=user_name, password=password, database=database_name)
if conn:
print("连接成功!")
而要是选择 pyodbc 库来连接数据库,代码示例则是这样的:
import pyodbc
# 配置连接信息,同样要替换成实际的服务器、数据库、用户名和密码等
server_name = '你的服务器名称'
database_name = '你的数据库名称'
user_name = '你的用户名'
password = '你的密码'
# 创建连接对象,注意这里的连接字符串格式
conn = pyodbc.connect('DRIVER={SQL Server};SERVER=' + server_name + ';DATABASE=' +
database_name + ';UID=' + user_name + ';PWD=' + password)
if conn:
print("连接成功!")
通过上述代码,依据你选用的库以及正确配置相关的连接信息,就能成功建立起与 SQL Server 数据库
的连接,后续便可以对其中的人员信息数据开展批量数据清洗工作了。
二、数据清洗场景及 Python 实现
(一)删除指定列、重命名列操作
在实际的数据库操作中,有时某些列的数据对于我们后续的分析或应用来说是冗余的,比如一些临时记
录的辅助列、已经过期失去意义的列等,这时候就需要将其删除。在 Python 中,我们可以使用 pandas
库中的 df.drop() 函数来实现删除指定列的操作。以下是示例代码:
import pandas as pd
# 假设我们已经从 SQL Server 数据库中获取到数据并存储在 DataFrame 中,这里模拟一个简单的
DataFrame 示例
文档被以下合辑收录
评论